論文の概要: Difference Feedback: Generating Multimodal Process-Level Supervision for VLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.27482v1
- Date: Sun, 29 Mar 2026 02:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.980119
- Title: Difference Feedback: Generating Multimodal Process-Level Supervision for VLM Reinforcement Learning
- Title(参考訳): 差分フィードバック:VLM強化学習のためのマルチモーダルプロセスレベルスーパービジョンの生成
- Authors: Feiding, Yongkang Zhang, Yuhao Liao, Zijian Zeng, Chunzheng Zhu, Yaozong Zheng, Yafei Liu, Yeling Peng, Youwei Wang, Sibo Wang, Huiming Yang, Linglin Liao, Shunzhi Yang,
- Abstract要約: 本稿では,誤った推論軌道を修復することでトークン/ステップレベルの監視マスクを自動構築する差分フィードバックを提案する。
当社のアプローチは、正確なビジョン-推論プロセスアライメントに対して、効果的で低コストなソリューションを提供する。
- 参考スコア(独自算出の注目度): 10.473880989969844
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision--language models (VLMs) are increasingly aligned via Group Relative Policy Optimization (GRPO)-style training. However, relying solely on terminal outcome rewards yields sparse credit assignment in multi-step reasoning, weakening the linkage between visual evidence and intermediate steps and often causing unstable optimization and visual hallucinations. We propose Differential Feedback, which automatically constructs token/step-level supervision masks by repairing erroneous reasoning trajectories, explicitly marking the key positions that require correction. Without costly large-scale step-by-step human annotations, our method enables process-level visual alignment and can be seamlessly integrated into existing GRPO-like frameworks. Experiments on multimodal reasoning benchmarks including MMMStar and MathVista show an average 3% improvement under matched compute budgets. Our approach offers an effective, low-cost solution for accurate vision--reasoning process alignment.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、GRPO(Group Relative Policy Optimization)スタイルのトレーニングを通じて、ますます整列している。
しかし、終末結果の報酬のみに依存すると、多段階の推論において緩やかなクレジット割り当てが得られ、視覚的証拠と中間的なステップの結びつきが弱まり、不安定な最適化や視覚的幻覚を引き起こすことがしばしばある。
本稿では,誤推論軌道を修復することでトークン/ステップレベルの監視マスクを自動的に構築し,補正を必要とするキー位置を明示的にマークする差分フィードバックを提案する。
大規模なステップバイステップのヒューマンアノテーションがなければ,プロセスレベルの視覚的アライメントが可能になり,既存のGRPOライクなフレームワークにシームレスに統合できる。
MMMStarやMathVistaといったマルチモーダル推論ベンチマークの実験では、一致した計算予算の下で平均3%の改善が示されている。
当社のアプローチは、正確なビジョン-推論プロセスアライメントに対して、効果的で低コストなソリューションを提供する。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment [29.229662966154507]
PaLMRは結果だけでなく、推論プロセス自体も整合するフレームワークです。
Qwen2.5-VL-7Bの実験から,本手法は幻覚の推論を著しく低減し,視覚的推論の忠実度を向上することが示された。
これらの結果から,PaLMRはプロセス整合型マルチモーダル推論への原則的かつ実践的な経路であることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-28T04:33:11Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [40.77611907215627]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。
我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。
近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。