論文の概要: Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.27375v1
- Date: Sat, 28 Mar 2026 18:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.927106
- Title: Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける検証可能なリワードからの視覚表現と強化学習のブリッジング
- Authors: Yuhang Han, Yuyang Wu, Zhengbo Jiao, Yiyu Wang, Xuyang Liu, Shaobo Wang, Hanlin Xu, Xuming Hu, Linfeng Zhang,
- Abstract要約: KAWHIは、構造化された視覚情報を均一な報酬ポリシー最適化手法に明示的に組み込む、プラグアンドプレイ報酬再重み付け機構である。
階層的幾何的アグリゲーションにより意味的に有意な領域を適応的に局在させ、構造化属性を介して視覚クリティカルなアテンションヘッドを識別し、段落レベルの信用再配置を行い、空間的な視覚的証拠を意味的に決定的な推論ステップと整合させる。
- 参考スコア(独自算出の注目度): 35.97638821723309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has substantially enhanced the reasoning capabilities of large language models in abstract reasoning tasks. However, its application to Large Vision-Language Models (LVLMs) remains constrained by a structural representational bottleneck. Existing approaches generally lack explicit modeling and effective utilization of visual information, preventing visual representations from being tightly coupled with the reinforcement learning optimization process and thereby limiting further improvements in multimodal reasoning performance. To address this limitation, we propose KAWHI (Key-Region Aligned Weighted Harmonic Incentive), a plug-and-play reward reweighting mechanism that explicitly incorporates structured visual information into uniform reward policy optimization methods (e.g., GRPO and GSPO). The method adaptively localizes semantically salient regions through hierarchical geometric aggregation, identifies vision-critical attention heads via structured attribution, and performs paragraph-level credit reallocation to align spatial visual evidence with semantically decisive reasoning steps. Extensive empirical evaluations on diverse reasoning benchmarks substantiate KAWHI as a general-purpose enhancement module, consistently improving the performance of various uniform reward optimization methods. Project page: KAWHI (https://kawhiiiileo.github.io/KAWHI_PAGE/)
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) は、抽象的推論タスクにおける大規模言語モデルの推論能力を大幅に強化した。
しかし、LVLM(Large Vision-Language Models)への応用は、構造的表現ボトルネックによって制限されている。
既存のアプローチでは、視覚情報の明示的なモデリングと効果的な利用が欠如しており、視覚表現が強化学習最適化プロセスと密結合されることを防ぎ、マルチモーダル推論性能のさらなる改善を制限している。
この制限に対処するために,構造化された視覚情報を一様報酬ポリシー最適化手法(GRPO,GSPO)に明示的に組み込むプラグイン・アンド・プレイの報酬重み付け機構であるKAWHI(Key-Region Aligned Harmonic Incentive)を提案する。
本手法は,階層的幾何的アグリゲーションにより意味的に有意な領域を適応的にローカライズし,構造化属性を介して視覚クリティカルなアテンションヘッドを特定し,空間的視覚的証拠を意味論的決定的な推論ステップと整合させる段落レベルの信用再配置を行う。
多種多様推論ベンチマークにおける広範囲な実験的評価は、KaWHIを汎用的な拡張モジュールとして定式化し、様々な一様報酬最適化手法の性能を一貫して改善した。
プロジェクトページ: KAWHI (https://kawhiiiileo.github.io/KAWHI_PAGE/)
関連論文リスト
- Beyond Where to Look: Trajectory-Guided Reinforcement Learning for Multimodal RLVR [30.94808389410323]
Trajectory-Guided Reinforcement Learningは、視覚的証拠をきめ細かな推論プロセスに統合するためのポリシーモデルを導く。
複数のマルチモーダル推論ベンチマークの実験は、TGRLが一貫して推論性能を改善することを示した。
論文 参考訳(メタデータ) (2026-03-27T07:18:18Z) - Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文 参考訳(メタデータ) (2026-01-29T02:36:19Z) - Graph Reasoning Paradigm: Structured and Symbolic Reasoning with Topology-Aware Reinforcement Learning for Large Language Models [45.28250076657801]
Long Chain-of-Thought (LCoT) は,Large Language Models (LLM) の推論能力の向上に有効であることが証明されている。
RLVRベースの最適化にもかかわらず、既存の手法はいまだに粗大な監督、報酬のハッキング、高いトレーニングコスト、一般化の欠如に悩まされている。
ステップレベルの認知ラベルを持つグラフ構造化表現を用いて,構造化および記号的推論を実現するグラフ推論パラダイム(GRP)を提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:00Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation [29.809079908218607]
この研究は、ベース擬似ラベルを強化し、ターゲット・プロンプト学習を促進する新しいソリューションを導入している。
まず、ソースとターゲットの視覚的埋め込みの関係に基づき、参照予測を活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
論文 参考訳(メタデータ) (2025-06-13T06:33:27Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。