論文の概要: VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2505.16192v1
- Date: Thu, 22 May 2025 03:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.023273
- Title: VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
- Title(参考訳): VLM-R$^3$: マルチモーダルチェーン強化のための領域認識, 推論, 精製
- Authors: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang,
- Abstract要約: textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
- 参考スコア(独自算出の注目度): 51.43082554363725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce \textbf{VLM-R$^3$} (\textbf{V}isual \textbf{L}anguage \textbf{M}odel with \textbf{R}egion \textbf{R}ecognition and \textbf{R}easoning), a framework that equips an MLLM with the ability to (i) decide \emph{when} additional visual evidence is needed, (ii) determine \emph{where} to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is \textbf{Region-Conditioned Reinforcement Policy Optimization (R-GRPO)}, a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R$^3$ sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.
- Abstract(参考訳): 近年、推論に基づくMLLMは、長文推論連鎖の生成に成功している。
しかし、彼らは、視覚的証拠におけるテキスト推論の正確な根拠を達成するために、視覚領域の動的かつ反復的な焦点と再考を必要とする複雑なタスクに苦慮している。
MLLMに同調するフレームワークである \textbf{VLM-R$^3$} (\textbf{V}isual \textbf{L}anguage \textbf{M}odel with \textbf{R}egion \textbf{R}ecognition and \textbf{R}easoning)を紹介する。
(i)追加の視覚的証拠が必要であると判断する。
(ii) \emph{where} を画像内の接地とし、
(iii)関連したサブイメージコンテンツをシームレスにインターリーブされたチェーン・オブ・ソートに織り戻す。
提案手法のコアとなるのは,情報領域の選択,適切な変換(例えば,作物,ズーム)の定式化,その後の推論ステップへの視覚的コンテキストの統合など,モデルに報いる訓練パラダイムである。
このポリシーをブートストラップするために、我々は、地域選択とテキストの正当性に関する段階的な監視を提供するVLIRコーパスを、控えめながら慎重にコンパイルする。
MathVista、ScienceQA、その他のベンチマークでは、VLM-R$^3$はゼロショットと数ショット設定で新しい最先端のセットを設定しており、最も大きな利益は微妙な空間的推論や微妙な視覚的キュー抽出を要求する質問に現れている。
関連論文リスト
- Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought [55.65577137924979]
本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。
NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。
3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-27T12:04:07Z) - Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - RegionReasoner: Region-Grounded Multi-Round Visual Reasoning [69.75509909581133]
RegionReasonerは視覚的推論のための強化学習フレームワークである。
これは、それぞれの推論トレースに対応する参照境界ボックスを明示的に引用することを要求することによって、根拠付き推論を強制する。
RegionReasonerは、基礎となる忠実さとグローバルなセマンティックアライメントを組み合わせた構造化された報酬で最適化されている。
論文 参考訳(メタデータ) (2026-02-03T16:52:16Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - Rethinking the Text-Vision Reasoning Imbalance in MLLMs through the Lens of Training Recipes [54.374410871041164]
MLLM(Multimodal large language model)は、視覚・言語タスクにおいて強力な機能を示す。
近年の研究では、視覚的・テキスト的モダリティ間の推論能力の不均衡が指摘されている。
我々は、この現象を、テキスト中心と視覚中心の入力のパフォーマンス格差として定義される、テクティモダリティギャップと呼ぶ。
論文 参考訳(メタデータ) (2025-10-26T21:06:13Z) - MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes [1.0799568216202955]
MLLM(Multimodal Large Language Models)の重要なフロンティアは、画像から直接、数学的および空間的推論を行う能力である。
MARVL-QAは、これらのコア推論スキルを定量的に評価するために設計された新しいベンチマークである。
MARVL-QAは、最先端のMLLMでさえ、頑丈な空間的推論ではなく表面的手法に頼って、かなり苦労していることを明らかにしている。
論文 参考訳(メタデータ) (2025-08-24T01:24:56Z) - MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization [19.70803794316208]
医用画像グラウンドディング(MIG)は、テキスト記述に基づいて、医療画像内の特定の領域をローカライズする。
MIGの既存のビジョンランゲージモデル(VLM)は、大量のチェーン・オブ・ソート(CoT)推論アノテーションを持つスーパービジョンファインチューニング(SFT)に依存していることが多い。
本研究では,CoT推論アノテーションを使わずにモデルをトレーニングするための空間意味的回帰グループ相対ポリシー最適化を提案する。
論文 参考訳(メタデータ) (2025-07-01T21:51:42Z) - VGR: Visual Grounded Reasoning [24.19194463566865]
本稿では,高精細な視覚知覚能力を備えた新しい推論型マルチモーダル言語モデル(MLLM)であるVGRを紹介する。
言語空間にのみ答える従来のMLLMとは異なり、VGRはまず、問題の解決に役立つ可能性のある関連領域を検出し、次に再生された画像領域に基づいて正確な回答を提供する。
論文 参考訳(メタデータ) (2025-06-13T17:47:43Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection [38.98491521357191]
textbfABSは、配布外一般化とゼロショット分類タスクで最先端のパフォーマンスを達成する。
textbfABSはトレーニング不要で、数ショットとテストタイムのアダプティブメソッドにさえ競合する。
論文 参考訳(メタデータ) (2025-05-19T15:15:37Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation [14.82606425343802]
Open-vocabulary Scene Graph Generation (OV-SGG)は、視覚的関係表現とオープンな語彙的テキスト表現を整合させることにより、クローズドセットの仮定の限界を克服する。
既存のOV-SGG法は、固定されたテキスト表現によって制約され、画像テキストアライメントの多様性と精度が制限される。
本稿では,対象物と地域固有の関係情報を統合することでテキスト表現を向上させるRAHP(Relation-Aware Hierarchical Prompting)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T02:12:37Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - DRTR: Distance-Aware Graph Representation Learning [6.185573921868495]
距離対応マルチホップメッセージパッシングと動的トポロジ改善を統合した新しいグラフ学習フレームワークである textbfDRTR を提案する。
emphDistance Recomputatorはアダプティブアテンションを使用して意味的に弱いエッジをプーンし、emphTopology Reconstructorは、遠いが関連するノード間の潜時接続を確立する。
論文 参考訳(メタデータ) (2024-06-25T05:12:51Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval [3.6570455823407957]
ビデオテキスト検索は、モーダル表現学習問題のクラスである。
本稿では、ソースモダリティ空間 $mathcalS$ からターゲットモダリティ空間 $mathcalT$ への変換関係を、ジョイント潜在空間を必要とせずに学習する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-07-11T13:37:32Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。