論文の概要: VGR: Visual Grounded Reasoning
- arxiv url: http://arxiv.org/abs/2506.11991v2
- Date: Mon, 16 Jun 2025 07:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 13:01:17.509931
- Title: VGR: Visual Grounded Reasoning
- Title(参考訳): VGR:ビジュアル接地推論
- Authors: Jiacong Wang, Zijian Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao,
- Abstract要約: 本稿では,高精細な視覚知覚能力を備えた新しい推論型マルチモーダル言語モデル(MLLM)であるVGRを紹介する。
言語空間にのみ答える従来のMLLMとは異なり、VGRはまず、問題の解決に役立つ可能性のある関連領域を検出し、次に再生された画像領域に基づいて正確な回答を提供する。
- 参考スコア(独自算出の注目度): 24.19194463566865
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.
- Abstract(参考訳): マルチモーダル・チェーン・オブ・シークレット(CoT)推論の分野では、既存のアプローチは主に純粋言語空間の推論に依存している。
この狭い焦点は、画像の詳細を包括的に理解する必要がある複雑な視覚的推論タスクを扱う能力を制限する。
これらの制約に対処するために,視覚の微粒化機能を強化した新しい推論型マルチモーダル言語モデル(MLLM)であるVGRを紹介する。
言語空間にのみ答える従来のMLLMとは異なり、VGRはまず、問題の解決に役立つ可能性のある関連領域を検出し、次に再生された画像領域に基づいて正確な回答を提供する。
これを実現するために、我々はVGR-SFTと呼ばれる大規模SFTデータセットを実行した。
VGRの推論パイプラインは、モデルが視覚参照のためのバウンディングボックスを選択できるようにし、対応する領域を推論プロセスに統合するために再生ステージを導入し、マルチモデル理解を強化する。
LLaVA-NeXT-7Bベースラインの実験により、VGRは画像の詳細な理解を必要とするマルチモーダルベンチマークにおいて優れた性能を発揮することが示された。
ベースラインと比較して、VGRは画像トークンカウントの30%しか使用せず、MMStarでは+4.1、AI2Dでは+7.1、ChartQAでは+12.9である。
関連論文リスト
- VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z) - GRIT: Teaching MLLMs to Think with Images [22.74533687444133]
Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。
GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。
GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
論文 参考訳(メタデータ) (2025-05-21T17:54:49Z) - Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) を拡張するための一般的なアプローチである
Visual-RAGは、証拠として視覚知識を抽出するために、テキスト・ツー・イメージ検索と関連する手がかり画像の統合が必要である。
論文 参考訳(メタデータ) (2025-02-23T16:23:50Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。
実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-26T18:59:33Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。