論文の概要: Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model
- arxiv url: http://arxiv.org/abs/2505.19406v1
- Date: Mon, 26 May 2025 01:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.098673
- Title: Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model
- Title(参考訳): 視覚言語推論モデルにおける構成能力ギャップの解き方
- Authors: Tianle Li, Jihai Zhang, Yongming Rao, Yu Cheng,
- Abstract要約: 我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
- 参考スコア(独自算出の注目度): 39.58344147240552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) demonstrate strong reasoning capabilities utilizing reinforcement learning (RL) with verifiable reward, whether large vision-language models (VLMs) can directly inherit such capabilities through similar post-training strategies remains underexplored. In this work, we conduct a systematic compositional probing study to evaluate whether current VLMs trained with RL or other post-training strategies can compose capabilities across modalities or tasks under out-of-distribution conditions. We design a suite of diagnostic tasks that train models on unimodal tasks or isolated reasoning skills, and evaluate them on multimodal, compositional variants requiring skill integration. Through comparisons between supervised fine-tuning (SFT) and RL-trained models, we identify three key findings: (1) RL-trained models consistently outperform SFT on compositional generalization, demonstrating better integration of learned skills; (2) although VLMs achieve strong performance on individual tasks, they struggle to generalize compositionally under cross-modal and cross-task scenario, revealing a significant gap in current training strategies; (3) enforcing models to explicitly describe visual content before reasoning (e.g., caption-before-thinking), along with rewarding progressive vision-to-text grounding, yields notable gains. It highlights two essential ingredients for improving compositionality in VLMs: visual-to-text alignment and accurate visual grounding. Our findings shed light on the current limitations of RL-based reasoning VLM training and provide actionable insights toward building models that reason compositionally across modalities and tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強化学習(RL)と検証可能な報酬を活用できる強力な推論能力を示すが、大規模視覚言語モデル(VLM)が同様の後学習戦略を通じて直接その機能を継承できるかどうかはまだ未定である。
本研究では,RLや他のポストトレーニング戦略で訓練された現在のVLMが,アウト・オブ・ディストリビューション条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを評価するために,体系的な構成探索研究を行う。
我々は、単調なタスクや孤立した推論スキルでモデルを訓練する一連の診断タスクを設計し、それらをスキル統合を必要とする多モーダルな構成的バリエーションで評価する。
教師付き微調整(SFT)モデルとRL訓練モデルの比較により,(1)RL訓練モデルは構成一般化において一貫してSFTを上回り,学習スキルの優れた統合性を示す。(2)VLMは個々のタスクにおいて高いパフォーマンスを達成できるが,現行のトレーニング戦略において重要なギャップを明らかにすること,(3)推論(例えば,キャプション・バイ・ライディング)の前に視覚的コンテンツを明示的に記述するモデルを強制すること,の3つの重要な結果が得られた。
VLMにおける構成性を改善するための2つの重要な要素、すなわち視覚とテキストのアライメントと正確な視覚的グラウンドティングを強調している。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
関連論文リスト
- Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning [12.728451197053321]
小型視覚言語モデル(VLM)に特化して設計された新しいポストトレーニングパラダイムであるCurr-ReFT(Curr-ReFT)を提案する。
Curr-ReFTは、カリキュラム強化学習(Curriculum Reinforcement Learning)とRejected Smplingベースの自己改善(Rejected Smpling-based Self-improvement)の2段階からなる。
実験により,Curr-ReFTパラダイムで訓練したモデルが,様々な視覚的タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-10T08:48:50Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。