Fugu-MT 論文翻訳(概要): Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through $f$-divergence Minimization

論文の概要: Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through $f$-divergence Minimization

arxiv url: http://arxiv.org/abs/2409.09774v2
Date: Wed, 6 Nov 2024 05:16:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 20:46:36.433251
Title: Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through $f$-divergence Minimization
Title（参考訳）: $f$-divergence最小化によるテキスト・画像生成のアライメントパラダイムの一般化
Authors: Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang,
Abstract要約: 本研究は,テキスト・ツー・イメージモデルのアライメントパラダイムにおける逆Kulback-Leibler分散を$f$-divergenceに拡張することに焦点を当てる。本研究では,異なる分散制約下で,画像テキストアライメント性能,人的価値アライメント性能,世代多様性性能の総合評価を行う。
参考スコア（独自算出の注目度）: 9.242941447250969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Direct Preference Optimization (DPO) has recently expanded its successful application from aligning large language models (LLMs) to aligning text-to-image models with human preferences, which has generated considerable interest within the community. However, we have observed that these approaches rely solely on minimizing the reverse Kullback-Leibler divergence during alignment process between the fine-tuned model and the reference model, neglecting the incorporation of other divergence constraints. In this study, we focus on extending reverse Kullback-Leibler divergence in the alignment paradigm of text-to-image models to $f$-divergence, which aims to garner better alignment performance as well as good generation diversity. We provide the generalized formula of the alignment paradigm under the $f$-divergence condition and thoroughly analyze the impact of different divergence constraints on alignment process from the perspective of gradient fields. We conduct comprehensive evaluation on image-text alignment performance, human value alignment performance and generation diversity performance under different divergence constraints, and the results indicate that alignment based on Jensen-Shannon divergence achieves the best trade-off among them. The option of divergence employed for aligning text-to-image models significantly impacts the trade-off between alignment performance (especially human value alignment) and generation diversity, which highlights the necessity of selecting an appropriate divergence for practical applications.
Abstract（参考訳）: 直接選好最適化(DPO)は、最近、大きな言語モデル(LLM)の整合化から、テキストから画像モデルと人間の選好の整合化まで、その成功例を拡張した。しかし, これらの手法は, 微調整モデルと参照モデルとのアライメント過程において, 逆クルバック・リーブラー分岐の最小化にのみ依存している。本研究では,テキスト・ツー・イメージ・モデルのアライメントパラダイムにおける逆のKullback-Leibler分散を$f$-divergenceに拡張することに着目し,優れたアライメント性能と優れた世代多様性を実現することを目的とした。我々は、$f$-divergence条件下でのアライメントパラダイムの一般化式を提供し、勾配場の観点から異なる分散制約がアライメントプロセスに与える影響を徹底的に分析する。本研究では, 画像テキストアライメント性能, 人的価値アライメント性能, 世代多様性パフォーマンスを, 異なる分散制約下で総合的に評価し, イェンセン=シャノンの発散に基づくアライメントが, それらの間に最高のトレードオフをもたらすことを示す。テキストと画像のアライメントに使用する分散オプションは、アライメント性能(特に人的価値アライメント)とジェネレーション多様性のトレードオフに大きく影響する。

関連論文リスト

Steering Guidance for Personalized Text-to-Image Diffusion Models [19.550718192994353]
既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
論文参考訳（メタデータ） (2025-08-01T05:02:26Z)
Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。 modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。 AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文参考訳（メタデータ） (2025-03-06T09:21:54Z)
On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。 OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-20T02:23:09Z)
Reducing Semantic Ambiguity In Domain Adaptive Semantic Segmentation Via Probabilistic Prototypical Pixel Contrast [7.092718945468069]
ドメイン適応は、ソースとターゲットドメイン間のドメインシフトに起因するターゲットドメインのモデル劣化を低減することを目的としています。確率的原型画素コントラスト(probabilistic proto-typeal pixel contrast、PPPC)は、各画素の埋め込みを確率としてモデル化する普遍的な適応フレームワークである。 PPPCは、画素レベルでの曖昧さに対処するだけでなく、識別的表現をもたらすだけでなく、合成からリアルタイム、および日毎の適応タスクにおいて大きな改善をもたらす。
論文参考訳（メタデータ） (2024-09-27T08:25:03Z)
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文参考訳（メタデータ） (2024-04-23T14:53:15Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。 RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文参考訳（メタデータ） (2024-02-15T18:58:31Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
OT-Attack: Enhancing Adversarial Transferability of Vision-Language Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文参考訳（メタデータ） (2023-12-07T16:16:50Z)
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。 RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。 DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文参考訳（メタデータ） (2023-09-28T08:29:44Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。 FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文参考訳（メタデータ） (2023-08-02T13:43:03Z)
Posterior Differential Regularization with f-divergence for Improving Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。後微分正則化を$f$-divergencesの族に一般化する。実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文参考訳（メタデータ） (2020-10-23T19:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。