論文の概要: BalancedDPO: Adaptive Multi-Metric Alignment
- arxiv url: http://arxiv.org/abs/2503.12575v1
- Date: Sun, 16 Mar 2025 17:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:07.254427
- Title: BalancedDPO: Adaptive Multi-Metric Alignment
- Title(参考訳): BalancedDPO: 適応型マルチメトリックアライメント
- Authors: Dipesh Tamboli, Souradip Chakraborty, Aditya Malusare, Biplab Banerjee, Amrit Singh Bedi, Vaneet Aggarwal,
- Abstract要約: 直接選好最適化(DPO)の新たな拡張である BalancedDPO を提案する。
T2I拡散モデルと人間の嗜好,CLIPスコア,審美的品質など,複数の指標を同時に一致させる。
評価の結果,HealthdDPOは最先端の結果を達成し,すべての主要な指標において既存手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 44.051100004689296
- License:
- Abstract: Text-to-image (T2I) diffusion models have made remarkable advancements, yet aligning them with diverse preferences remains a persistent challenge. Current methods often optimize single metrics or depend on narrowly curated datasets, leading to overfitting and limited generalization across key visual quality metrics. We present BalancedDPO, a novel extension of Direct Preference Optimization (DPO) that addresses these limitations by simultaneously aligning T2I diffusion models with multiple metrics, including human preference, CLIP score, and aesthetic quality. Our key novelty lies in aggregating consensus labels from diverse metrics in the preference distribution space as compared to existing reward mixing approaches, enabling robust and scalable multi-metric alignment while maintaining the simplicity of the standard DPO pipeline that we refer to as BalancedDPO. Our evaluations on the Pick-a-Pic, PartiPrompt and HPD datasets show that BalancedDPO achieves state-of-the-art results, outperforming existing approaches across all major metrics. BalancedDPO improves the average win rates by 15%, 7.1%, and 10.3% on Pick-a-pic, PartiPrompt and HPD, respectively, from the DiffusionDPO.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは目覚ましい進歩を遂げているが、多彩な嗜好と整合性は依然として持続的な課題である。
現在の手法では、単一のメトリクスを最適化したり、狭いキュレートされたデータセットに依存することが多いため、主要な視覚的品質指標に対する過度な適合と限定的な一般化につながる。
人選好,CLIPスコア,審美的品質など,T2I拡散モデルと複数の指標を同時に一致させることにより,これらの制約に対処する。
我々の重要な新規性は、既存の報酬混合アプローチと比較して、好みの分布空間における様々なメトリクスからのコンセンサスラベルを集約することであり、私たちがBa balancedDPOと呼ぶ標準DPOパイプラインの単純さを維持しながら、堅牢でスケーラブルなマルチメトリックアライメントを可能にします。
Pick-a-Pic, PartiPrompt, HPDデータセットに対する評価は, BalancedDPOが最先端の結果を達成し,すべての主要な指標における既存のアプローチよりも優れていることを示している。
BalancedDPOは、DiffusionDPOから、Pick-a-pic、PartiPrompt、HPDの平均勝利率を15%、7.1%、そして10.3%改善する。
関連論文リスト
- Less is More: Improving LLM Alignment via Preference Data Selection [46.9163802899686]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なアプローチである。
DPOトレーニングにおけるデータセットキュレーションのための新たなマージン最大化原理を提案する。
Ultrafeedbackデータセットの10%しか使用せず、様々なLlamaおよびMistralシリーズモデルに対して3%から8%の改善を実現しています。
論文 参考訳(メタデータ) (2025-02-20T13:45:17Z) - Dual Caption Preference Optimization for Diffusion Models [51.223275938663235]
本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。
実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文 参考訳(メタデータ) (2024-06-16T14:24:30Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。