論文の概要: VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2505.16192v1
- Date: Thu, 22 May 2025 03:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.023273
- Title: VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
- Title(参考訳): VLM-R$^3$: マルチモーダルチェーン強化のための領域認識, 推論, 精製
- Authors: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang,
- Abstract要約: textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
- 参考スコア(独自算出の注目度): 51.43082554363725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce \textbf{VLM-R$^3$} (\textbf{V}isual \textbf{L}anguage \textbf{M}odel with \textbf{R}egion \textbf{R}ecognition and \textbf{R}easoning), a framework that equips an MLLM with the ability to (i) decide \emph{when} additional visual evidence is needed, (ii) determine \emph{where} to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is \textbf{Region-Conditioned Reinforcement Policy Optimization (R-GRPO)}, a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R$^3$ sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.
- Abstract(参考訳): 近年、推論に基づくMLLMは、長文推論連鎖の生成に成功している。
しかし、彼らは、視覚的証拠におけるテキスト推論の正確な根拠を達成するために、視覚領域の動的かつ反復的な焦点と再考を必要とする複雑なタスクに苦慮している。
MLLMに同調するフレームワークである \textbf{VLM-R$^3$} (\textbf{V}isual \textbf{L}anguage \textbf{M}odel with \textbf{R}egion \textbf{R}ecognition and \textbf{R}easoning)を紹介する。
(i)追加の視覚的証拠が必要であると判断する。
(ii) \emph{where} を画像内の接地とし、
(iii)関連したサブイメージコンテンツをシームレスにインターリーブされたチェーン・オブ・ソートに織り戻す。
提案手法のコアとなるのは,情報領域の選択,適切な変換(例えば,作物,ズーム)の定式化,その後の推論ステップへの視覚的コンテキストの統合など,モデルに報いる訓練パラダイムである。
このポリシーをブートストラップするために、我々は、地域選択とテキストの正当性に関する段階的な監視を提供するVLIRコーパスを、控えめながら慎重にコンパイルする。
MathVista、ScienceQA、その他のベンチマークでは、VLM-R$^3$はゼロショットと数ショット設定で新しい最先端のセットを設定しており、最も大きな利益は微妙な空間的推論や微妙な視覚的キュー抽出を要求する質問に現れている。
関連論文リスト
- From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection [38.98491521357191]
textbfABSは、配布外一般化とゼロショット分類タスクで最先端のパフォーマンスを達成する。
textbfABSはトレーニング不要で、数ショットとテストタイムのアダプティブメソッドにさえ競合する。
論文 参考訳(メタデータ) (2025-05-19T15:15:37Z) - Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation [14.82606425343802]
Open-vocabulary Scene Graph Generation (OV-SGG)は、視覚的関係表現とオープンな語彙的テキスト表現を整合させることにより、クローズドセットの仮定の限界を克服する。
既存のOV-SGG法は、固定されたテキスト表現によって制約され、画像テキストアライメントの多様性と精度が制限される。
本稿では,対象物と地域固有の関係情報を統合することでテキスト表現を向上させるRAHP(Relation-Aware Hierarchical Prompting)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T02:12:37Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - DRTR: Distance-Aware Graph Representation Learning [6.185573921868495]
距離対応マルチホップメッセージパッシングと動的トポロジ改善を統合した新しいグラフ学習フレームワークである textbfDRTR を提案する。
emphDistance Recomputatorはアダプティブアテンションを使用して意味的に弱いエッジをプーンし、emphTopology Reconstructorは、遠いが関連するノード間の潜時接続を確立する。
論文 参考訳(メタデータ) (2024-06-25T05:12:51Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval [3.6570455823407957]
ビデオテキスト検索は、モーダル表現学習問題のクラスである。
本稿では、ソースモダリティ空間 $mathcalS$ からターゲットモダリティ空間 $mathcalT$ への変換関係を、ジョイント潜在空間を必要とせずに学習する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-07-11T13:37:32Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。