論文の概要: Follow-Your-Preference++: Rethinking Preference Alignment for Image Inpainting
- arxiv url: http://arxiv.org/abs/2606.03216v1
- Date: Tue, 02 Jun 2026 06:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.803757
- Title: Follow-Your-Preference++: Rethinking Preference Alignment for Image Inpainting
- Title(参考訳): Follow-Your-Preference++: イメージインパインティングの優先度アライメントを再考する
- Authors: Junkun Yuan, Yutao Shen, Toru Aonishi, Hideki Nakayama, Yue Ma,
- Abstract要約: 我々は、広く使われている直接選好最適化フレームワークを採用し、一般公開された報奨モデルを用いた選好学習データを構築した。
報酬モデルの単純なアンサンブルはそのようなバイアスを緩和し、堅牢で一般化可能な性能をもたらす。
我々のモデルは、標準メトリクス、大規模視覚言語モデル評価、人的評価において、最先端のモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 17.648992293002088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study preference alignment for image inpainting. Rather than proposing yet another method, we revisit the problem from first principles and reassess its core challenges. We adopt the widely used direct preference optimization framework and construct preference training data with publicly available reward models. Our empirical study spans nine reward models, two benchmarks, and two baseline inpainting models that differ in architecture and generative mechanism. Our main findings are: (1) Most reward models provide valid signals for preference data construction, although some are unreliable as evaluators. (2) Across models and benchmarks, preference data exhibits consistent trends under both candidate and sample scaling. (3) Reward models display pronounced biases--particularly in brightness, composition, and color scheme--that make them prone to inducing reward hacking. (4) A simple ensemble of reward models mitigates such biases and yields robust, generalizable performance. {\color{rebuttal_blue}(5) Preference alignment is transferable to the object removal task, where the goal shifts from open-ended creative generation to coherent background completion. (6) Further analysis reveals that a calibrated ensemble method further mitigates hacking and improves robustness.} Without modifying model architectures or introducing additional datasets, our models substantially outperform prior state-of-the-art models on standard metrics, large vision-language model evaluations, and human assessments. Our code is available at: https://github.com/shenytzzz/Follow-Your-Preference.
- Abstract(参考訳): 画像インペイントのための好みのアライメントについて検討する。
新たな方法を提案するのではなく、最初の原則から問題を再検討し、その中核的な課題を再評価します。
我々は、広く使われている直接選好最適化フレームワークを採用し、一般公開された報奨モデルを用いた選好学習データを構築した。
我々の実証的研究は、アーキテクチャと生成機構が異なる9つの報酬モデル、2つのベンチマーク、2つのベースラインインペイントモデルにまたがる。
主な知見は,(1)報奨モデルが優先データ構築に有効な信号を提供するが,評価対象として信頼性が低いものもある。
2) モデルおよびベンチマーク全体において, 選好データは候補とサンプルのスケーリングの両方において一貫した傾向を示す。
(3)リワードモデルでは、特に明るさ、構成、色調の偏りが顕著であり、報酬ハッキングを誘発する傾向がある。
(4) 報酬モデルの単純なアンサンブルは、そのようなバイアスを緩和し、堅牢で一般化可能な性能をもたらす。
参照アライメントはオブジェクト削除タスクに転送可能で、そこでは、目標がオープンエンドのクリエイティブ生成からコヒーレントなバックグラウンドコンプリートにシフトする。
(6) さらに解析した結果, 校正アンサンブル法によりハッキングが軽減され, 堅牢性が向上することが明らかとなった。
モデルアーキテクチャを変更したり、追加データセットを導入することなく、私たちのモデルは標準メトリクス、大きな視覚言語モデル評価、人間の評価において、最先端のモデルを大幅に上回っています。
私たちのコードは、https://github.com/shenytzzz/Follow-Your-Preference.comで利用可能です。
関連論文リスト
- Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback [26.682783974167446]
リワードモデリングは、大きな言語モデルと人間の嗜好の整合に不可欠である。
現在のアプローチでは、順序的嗜好データを活用するための基本的な数学的枠組みが欠如している。
本稿では, 離散順序回帰問題として, Likert スケールの選好を用いた報酬モデリングを定式化する理論的な枠組みを提案する。
論文 参考訳(メタデータ) (2026-02-13T05:08:05Z) - Follow-Your-Preference: Towards Preference-Aligned Image Inpainting [17.648992293002088]
我々は、アライメントトレーニングに顕著な直接選好最適化アプローチを活用する。
プライオリティトレーニングデータセットを構築するために、パブリック報酬モデルを使用します。
私たちの仕事はシンプルだがしっかりとしたベースラインを設定することができ、この有望なフロンティアを推し進めることができます。
論文 参考訳(メタデータ) (2025-09-27T03:32:30Z) - Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。
これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。
本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文 参考訳(メタデータ) (2025-05-13T21:50:03Z) - Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。