論文の概要: Follow-Your-Preference: Towards Preference-Aligned Image Inpainting
- arxiv url: http://arxiv.org/abs/2509.23082v1
- Date: Sat, 27 Sep 2025 03:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.022885
- Title: Follow-Your-Preference: Towards Preference-Aligned Image Inpainting
- Title(参考訳): Follow-Your-Preference: Preference-Aligned Image Inpaintingに向けて
- Authors: Yutao Shen, Junkun Yuan, Toru Aonishi, Hideki Nakayama, Yue Ma,
- Abstract要約: 我々は、アライメントトレーニングに顕著な直接選好最適化アプローチを活用する。
プライオリティトレーニングデータセットを構築するために、パブリック報酬モデルを使用します。
私たちの仕事はシンプルだがしっかりとしたベースラインを設定することができ、この有望なフロンティアを推し進めることができます。
- 参考スコア(独自算出の注目度): 17.648992293002088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates image inpainting with preference alignment. Instead of introducing a novel method, we go back to basics and revisit fundamental problems in achieving such alignment. We leverage the prominent direct preference optimization approach for alignment training and employ public reward models to construct preference training datasets. Experiments are conducted across nine reward models, two benchmarks, and two baseline models with varying structures and generative algorithms. Our key findings are as follows: (1) Most reward models deliver valid reward scores for constructing preference data, even if some of them are not reliable evaluators. (2) Preference data demonstrates robust trends in both candidate scaling and sample scaling across models and benchmarks. (3) Observable biases in reward models, particularly in brightness, composition, and color scheme, render them susceptible to cause reward hacking. (4) A simple ensemble of these models yields robust and generalizable results by mitigating such biases. Built upon these observations, our alignment models significantly outperform prior models across standard metrics, GPT-4 assessments, and human evaluations, without any changes to model structures or the use of new datasets. We hope our work can set a simple yet solid baseline, pushing this promising frontier. Our code is open-sourced at: https://github.com/shenytzzz/Follow-Your-Preference.
- Abstract(参考訳): 本稿では、好みのアライメントによる画像のインペイントについて検討する。
新たな手法を導入する代わりに,基本に立ち返り,このようなアライメントを実現する上での基本的問題を再考する。
我々は、アライメントトレーニングに顕著な直接選好最適化アプローチを活用し、プライオリティトレーニングデータセットを構築するために公共報酬モデルを採用する。
9つの報酬モデル、2つのベンチマーク、2つのベースラインモデル、様々な構造と生成アルゴリズムで実験が行われる。
主な知見は次のとおりである。(1)ほとんどの報奨モデルは、信頼できない評価者であっても、選好データを構築する上で有効な報奨スコアを提供する。
2) 選好データは,候補スケーリングとモデルおよびベンチマーク間のサンプルスケーリングの両方において,堅牢な傾向を示す。
(3)報酬モデルにおける可観測バイアス、特に明るさ、構成、色調は、報酬ハッキングを引き起こす可能性がある。
(4) これらのモデルの単純なアンサンブルは、そのようなバイアスを緩和することによって、堅牢で一般化可能な結果をもたらす。
これらの観測に基づいて、我々のアライメントモデルは、モデル構造や新しいデータセットの使用を変更することなく、標準メトリクス、GPT-4アセスメント、人的評価において、先行モデルよりも大幅に優れています。
私たちは、この有望なフロンティアを推し進めて、シンプルでしっかりとしたベースラインを築けることを願っています。
私たちのコードは、https://github.com/shenytzzz/Follow-Your-Preference.comでオープンソース化されています。
関連論文リスト
- GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。