論文の概要: FABRIC: Personalizing Diffusion Models with Iterative Feedback
- arxiv url: http://arxiv.org/abs/2307.10159v1
- Date: Wed, 19 Jul 2023 17:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:10:10.332496
- Title: FABRIC: Personalizing Diffusion Models with Iterative Feedback
- Title(参考訳): FABRIC:反復フィードバックを用いた拡散モデルのパーソナライズ
- Authors: Dimitri von R\"utte, Elisabetta Fedele, Jonathan Thomm, Lukas Wolf
- Abstract要約: 視覚コンテンツ生成が機械学習によってますます推進される時代において、人間のフィードバックを生成モデルに統合することは、ユーザエクスペリエンスと出力品質を高める重要な機会となる。
FABRICは,広範に普及している拡散モデルに適用可能な学習自由アプローチであり,最も広く使用されているアーキテクチャにおける自己認識層を利用して,フィードバック画像の集合に拡散過程を条件付ける。
本研究では,複数ラウンドの反復的フィードバックに対して,任意のユーザの好みを暗黙的に最適化することで,生成結果が改良されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an era where visual content generation is increasingly driven by machine
learning, the integration of human feedback into generative models presents
significant opportunities for enhancing user experience and output quality.
This study explores strategies for incorporating iterative human feedback into
the generative process of diffusion-based text-to-image models. We propose
FABRIC, a training-free approach applicable to a wide range of popular
diffusion models, which exploits the self-attention layer present in the most
widely used architectures to condition the diffusion process on a set of
feedback images. To ensure a rigorous assessment of our approach, we introduce
a comprehensive evaluation methodology, offering a robust mechanism to quantify
the performance of generative visual models that integrate human feedback. We
show that generation results improve over multiple rounds of iterative feedback
through exhaustive analysis, implicitly optimizing arbitrary user preferences.
The potential applications of these findings extend to fields such as
personalized content creation and customization.
- Abstract(参考訳): 視覚コンテンツ生成が機械学習によってますます推進される時代において、人間のフィードバックを生成モデルに統合することは、ユーザエクスペリエンスと出力品質を高める重要な機会となる。
本研究では,拡散に基づくテキスト対画像モデルの生成過程に反復的人間フィードバックを組み込むための戦略を検討する。
FABRICは,広範に普及している拡散モデルに適用可能な学習自由アプローチであり,最も広く使用されているアーキテクチャにおける自己認識層を利用して,フィードバック画像の集合に拡散過程を条件付ける。
提案手法を厳密に評価するために,人間のフィードバックを統合した生成的視覚モデルの性能を定量化するロバストなメカニズムを提供する総合的な評価手法を提案する。
本研究では,複数ラウンドの反復的フィードバックに対して,任意のユーザの好みを暗黙的に最適化することで,生成結果が改良されることを示す。
これらの発見の潜在的な応用は、パーソナライズされたコンテンツ作成やカスタマイズといった分野にまで及んでいる。
関連論文リスト
- Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文 参考訳(メタデータ) (2024-11-23T10:06:18Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - HuTuMotion: Human-Tuned Navigation of Latent Motion Diffusion Models
with Minimal Feedback [46.744192144648764]
HuTuMotionは、数発の人間のフィードバックを活用して潜伏運動拡散モデルをナビゲートする、自然な人間の動きを生成する革新的なアプローチである。
以上の結果から, 少ないフィードバックを活用すれば, 広範囲なフィードバックによって達成されたものと同程度の性能が得られることが判明した。
論文 参考訳(メタデータ) (2023-12-19T15:13:08Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。