論文の概要: Listener-Rewarded Thinking in VLMs for Image Preferences
- arxiv url: http://arxiv.org/abs/2506.22832v1
- Date: Sat, 28 Jun 2025 09:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.59235
- Title: Listener-Rewarded Thinking in VLMs for Image Preferences
- Title(参考訳): 画像優先のためのVLMにおけるリスナー・リワード思考
- Authors: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets,
- Abstract要約: 視覚報酬モデルをトレーニングするためのリスナー強化GRPOフレームワークを提案する。
我々のリスナー型報酬方式は,ImageRewardベンチマークにおいて最も精度が高い。
これらの結果から、聞き手による報酬は、視覚言語モデルと微妙な人間の嗜好を整合させる、スケーラブルでデータ効率のよい経路を提供することが示された。
- 参考スコア(独自算出の注目度): 38.07052490646366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training robust and generalizable reward models for human visual preferences is essential for aligning text-to-image and text-to-video generative models with human intent. However, current reward models often fail to generalize, and supervised fine-tuning leads to memorization, demanding complex annotation pipelines. While reinforcement learning (RL), specifically Group Relative Policy Optimization (GRPO), improves generalization, we uncover a key failure mode: a significant drop in reasoning accuracy occurs when a model's reasoning trace contradicts that of an independent, frozen vision-language model ("listener") evaluating the same output. To address this, we introduce a listener-augmented GRPO framework. Here, the listener re-evaluates the reasoner's chain-of-thought to provide a dense, calibrated confidence score, shaping the RL reward signal. This encourages the reasoner not only to answer correctly, but to produce explanations that are persuasive to an independent model. Our listener-shaped reward scheme achieves best accuracy on the ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD) performance on a large-scale human preference dataset (1.2M votes, up to +6% over naive reasoner), and reduces reasoning contradictions compared to strong GRPO and SFT baselines. These results demonstrate that listener-based rewards provide a scalable, data-efficient path to aligning vision-language models with nuanced human preferences. We will release our reasoning model here: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
- Abstract(参考訳): 人間の視覚的嗜好に対する堅牢で一般化可能な報酬モデルのトレーニングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成モデルを人間の意図に合わせるために不可欠である。
しかし、現在の報酬モデルは一般化に失敗することが多く、教師付き微調整によって暗記され、複雑なアノテーションパイプラインが要求される。
強化学習(RL)、特にグループ相対政策最適化(GRPO)は、一般化を改善するが、重要な障害モードを明らかにする: モデルの推論トレースが、同じ出力を評価する独立した凍結視覚言語モデル(リスナー)と矛盾する場合に、推論精度が大幅に低下する。
この問題に対処するため、リスナ拡張GRPOフレームワークを導入します。
ここでは、リスナーは、RL報酬信号を形作る、密度の高い校正された信頼スコアを提供するために、推論者の連鎖を再評価する。
このことは、推論者が正しく答えるだけでなく、独立したモデルに説得力のある説明を生み出すことを奨励する。
我々のリスナー型報酬方式は,ImageRewardベンチマーク(67.4%)で最高の精度を達成し,大規模な人選好データセット(1.2万票以上,ナイーブな推論よりも+6%以上)のアウト・オブ・ディストリビューション(OOD)性能を大幅に向上させ,強力なGRPOやSFTベースラインと比較して推論矛盾を低減させる。
これらの結果から,聞き手による報酬は,視覚言語モデルと人間の嗜好を微妙に整合させるための,スケーラブルでデータ効率のよい経路を提供することが示された。
https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner。
関連論文リスト
- ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models [9.30148520355391]
本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。
第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。
第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。
最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
論文 参考訳(メタデータ) (2025-06-20T03:10:52Z) - Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。