論文の概要: On Asymmetric Optimization of Reasoning and Perception in Vision-Language Model Post-Training
- arxiv url: http://arxiv.org/abs/2605.29496v1
- Date: Thu, 28 May 2026 07:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.941044
- Title: On Asymmetric Optimization of Reasoning and Perception in Vision-Language Model Post-Training
- Title(参考訳): 視線学習後モデルにおける推論と知覚の非対称最適化について
- Authors: Xueqing Wu, Yu-Chi Lin, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: ポストトレーニングは、フロンティア視覚言語モデルの推論を大幅に改善したが、認識の獲得は比較的限られている。
そこで本研究では,2つの総合的なタスクによって,認識を推論から遠ざけるような,制御された診断フレームワークを提案する。
その結果、非対称な最適化を包括的に診断し、知覚と推論のバランスをとるための具体的な介入を提案する。
- 参考スコア(独自算出の注目度): 80.12265510012328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training has greatly improved reasoning in frontier vision-language models, yet its gains for perception remain comparatively limited, creating a bottleneck for end-to-end visual reasoning. To investigate this gap, we introduce a controlled diagnostic framework with two synthetic tasks that disentangle perception from reasoning. Our analysis reveals a consistent perception-reasoning asymmetry: posttraining improves reasoning more substantially than perception, though the underlying mechanism differs by training paradigm. For supervised fine-tuning (SFT), this asymmetry stems from token imbalance in chain-of-thought supervision, where perception occupies fewer tokens and thus receives a weaker training signal. Dynamically reweighting the loss mitigates this imbalance and boosts end-to-end performance by up to 18.2. For reinforcement learning (RL), the asymmetry instead arises from reward coupling: outcome rewards correlate more strongly with reasoning than with perception, weakening the signal for perception learning. Adding a perception-aware reward alleviates the imbalance and improves end-to-end accuracy by up to 6.0; even without groundtruth perception rewards, a reliable surrogate reward provide useful signal, yielding gains of 3.2 points. Together, our results comprehensively diagnose asymmetric optimization and suggest concrete interventions to balance perception and reasoning.
- Abstract(参考訳): ポストトレーニングは、フロンティアの視覚言語モデルにおける推論を大幅に改善したが、認識のゲインは比較的限られており、エンドツーエンドの視覚推論のボトルネックを生み出している。
このギャップを解明するために,2つの合成課題を伴う制御された診断枠組みを導入し,認識を推論から遠ざける。
ポストトレーニングは、学習パラダイムによって異なるが、その基礎となるメカニズムは、知覚よりも推論を大幅に改善する。
教師付き微調整(SFT)では、この非対称性は、認識がより少ないトークンを占有し、より弱い訓練信号を受け取る、チェーン・オブ・シント監視におけるトークンの不均衡に起因する。
損失の動的再重み付けは、この不均衡を緩和し、エンドツーエンドのパフォーマンスを最大18.2向上させる。
強化学習(RL)では、非対称性は報酬結合から生じる:結果報酬は知覚よりも推論と強く相関し、知覚学習のシグナルを弱める。
不均衡を緩和し、エンドツーエンドの精度を最大6.0向上させ、基礎的な認識報酬がなくても、信頼できる代理報酬は有用な信号を提供し、3.2ポイントの利得が得られる。
その結果、非対称な最適化を包括的に診断し、知覚と推論のバランスをとるための具体的な介入を提案する。
関連論文リスト
- DUEL: Adversarial Self-Play for Multimodal Reasoning [16.61891948648537]
視覚言語モデル(VLM)の推論能力向上のための効果的なパラダイムとして強化学習(RL)が登場した。
本稿では,同じ事前学習VLMから生じる2つのポリシー間の対立的相互作用から,監督が出現する自己進化的ポストトレーニングフレームワークDUELを提案する。
実験によると、DUELは人間のアノテーション、外部報酬モデル、画像編集ツールを使わずに、視覚的推論と堅牢な識別を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-24T00:38:26Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs [15.301640007799735]
単純な、制御されたテキストの摂動(キャプションや不正確なチェーン・オブ・シント(CoT)のトレース)は、堅牢性と信頼性が著しく低下していることを示している。
これらの脆弱性をよりよく理解するために、我々はRL微調整力学を分析し、精度と信頼のトレードオフを明らかにする。
論文 参考訳(メタデータ) (2026-02-13T01:12:00Z) - Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization [4.784045060345404]
この研究は、柔軟なバイアス制御とより強力な表現学習を実現するための拡張手法を導入する。
両アクターによる過大評価と楽観的な探索を緩和するために、悲観的推定のバランスをとる3つの凸組合せ戦略(対称と非対称)を提案する。
パフォーマンスをさらに向上するため、アクターと批評家ネットワークに拡張状態とアクション表現を統合する。
論文 参考訳(メタデータ) (2025-11-20T06:31:55Z) - Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards [24.40159537923851]
音声大言語モデルにおけるロバストでスケーラブルな推論法を開発するための原理的手法を開発した。
MMAU 2.5 Pro と GPT-4o Audio をほぼ上回り、MMSU の推論タスクにおけるほぼ人間レベルの性能を向上する。
論文 参考訳(メタデータ) (2025-10-23T06:18:10Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。