論文の概要: When Preference Labels Fall Short: Aligning Diffusion Models from Real Data
- arxiv url: http://arxiv.org/abs/2605.19839v1
- Date: Tue, 19 May 2026 13:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.372731
- Title: When Preference Labels Fall Short: Aligning Diffusion Models from Real Data
- Title(参考訳): 参照ラベルが短くなったとき - 実データから拡散モデルを調整する
- Authors: Weiyan Chen, Weijian Deng, Yao Xiao, Weijie Tu, ZiYi Dong, Ibrahim Radwan, Liang Lin, Pengxu Wei,
- Abstract要約: 選好アライメントは、選好サンプルと非選好サンプルの比較から学習することで生成モデルを導くことを目的としている。
既存のアプローチのほとんどは、モデル生成画像から構築された選好ペアに依存している。
我々は、実際のデータが優先調整のための代替の監督源として機能するかどうかを考察する。
- 参考スコア(独自算出の注目度): 65.80726604713614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference alignment aims to guide generative models by learning from comparisons between preferred and non-preferred samples. In practice, most existing approaches rely on preference pairs constructed from model-generated images. Such supervision is inherently relative and can be ambiguous when both samples exhibit artifacts or limited visual quality, making it difficult to infer what constitutes a truly desirable output. In this work, we investigate whether real data can serve as an alternative source of supervision for preference alignment. We adopt a data-centric perspective and study a curation strategy that treats real images as reference points and constructs preference signals by contrasting them with generated or perturbed samples, without requiring manually annotated preference pairs. Through empirical analysis, we show that real-data-based supervision provides effective guidance for aligning diffusion models and achieves performance comparable to existing preference-based methods. Our results suggest that real data offers a practical and complementary source of supervision for preference alignment and highlight directions of label-efficient alignment strategies. Code and models are available at https://cwyxx.github.io/RealAlign.
- Abstract(参考訳): 選好アライメントは、選好サンプルと非選好サンプルの比較から学習することで生成モデルを導くことを目的としている。
実際、既存のほとんどのアプローチはモデル生成画像から構築された選好ペアに依存している。
このような監督は本質的に相対的であり、両方のサンプルが人工物や限られた視覚的品質を示す場合、不明瞭であり、真に望ましい出力を構成するものを推測することは困難である。
本研究では、実際のデータが優先調整のための代替の監督源として機能するかどうかを考察する。
我々は、データ中心の視点を採用し、実際の画像を参照ポイントとして扱うキュレーション戦略を研究し、手動で注釈付けされた選好ペアを必要とせず、生成されたサンプルや摂動サンプルと対比することで、選好信号を構築する。
実験分析により、実データに基づく監視が拡散モデルの整合を効果的に指導し、既存の嗜好に基づく手法に匹敵する性能を達成することを示す。
以上の結果から,実データは,嗜好アライメントの実践的で補完的な源泉であり,ラベル効率の高いアライメント戦略の方向性を強調することが示唆された。
コードとモデルはhttps://cwyxx.github.io/RealAlign.comで入手できる。
関連論文リスト
- Threshold-Guided Optimization for Visual Generative Models [16.556017381410943]
視覚生成モデルと人間のフィードバックを整合させるためのしきい値誘導フレームワークを提案する。
提案手法は,従来手法よりも常に好みのアライメントを改善する。
これらの結果は、我々の閾値誘導フレームワークを、ペア比較なしで視覚的生成モデルを整列する単純な代替手段として位置づけている。
論文 参考訳(メタデータ) (2026-05-06T08:59:16Z) - How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics [65.67654005892469]
適切なインスタンス依存サンプリングは、より強力なランキング保証を得られる一方で、スキュードオン政治サンプリングは、構造化された嗜好の下で過剰な濃度を誘導できることを示す。
次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的なアライメントダイナミクスを分析する。
我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
論文 参考訳(メタデータ) (2026-02-12T17:11:08Z) - Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision [14.612317970237436]
拡散モデルは、テキスト・ツー・イメージ合成のような生成タスクにおいて印象的な結果を得た。
彼らはしばしば、アウトプットを曖昧なユーザ意図と完全に整合させ、一貫した美的品質を維持するのに苦労する。
既存の嗜好ベースのトレーニング手法は、これらの問題に対処するのに役立つが、コストが高く、潜在的にノイズの多い人間のデータセットに依存している。
論文 参考訳(メタデータ) (2025-12-29T12:46:07Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Towards Understanding Valuable Preference Data for Large Language Model Alignment [85.38864561060088]
大規模言語モデル(LLM)のアライメントは通常、人間の好みの比較から学習することで達成される。
新たに提案したTruncated Influence Function (TIF) を用いた検証データに対する個人の影響によるデータ品質の評価を行う。
この目的のために、我々はそれらを組み合わせ、様々なエラーソースをオフセットし、単純だが効果的なデータ選択ルールをもたらす。
論文 参考訳(メタデータ) (2025-10-15T06:57:55Z) - Follow-Your-Preference: Towards Preference-Aligned Image Inpainting [17.648992293002088]
我々は、アライメントトレーニングに顕著な直接選好最適化アプローチを活用する。
プライオリティトレーニングデータセットを構築するために、パブリック報酬モデルを使用します。
私たちの仕事はシンプルだがしっかりとしたベースラインを設定することができ、この有望なフロンティアを推し進めることができます。
論文 参考訳(メタデータ) (2025-09-27T03:32:30Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。