論文の概要: GRIT: Teaching MLLMs to Think with Images
- arxiv url: http://arxiv.org/abs/2505.15879v1
- Date: Wed, 21 May 2025 17:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.837939
- Title: GRIT: Teaching MLLMs to Think with Images
- Title(参考訳): GRIT:MLLMにイメージで考えることを教える
- Authors: Yue Fan, Xuehai He, Diji Yang, Kaizhi Zheng, Ching-Chen Kuo, Yuting Zheng, Sravana Jyothi Narayanaraju, Xinze Guan, Xin Eric Wang,
- Abstract要約: Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。
GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。
GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
- 参考スコア(独自算出の注目度): 22.74533687444133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have demonstrated the efficacy of using Reinforcement Learning (RL) in building reasoning models that articulate chains of thoughts prior to producing final answers. However, despite ongoing advances that aim at enabling reasoning for vision-language tasks, existing open-source visual reasoning models typically generate reasoning content with pure natural language, lacking explicit integration of visual information. This limits their ability to produce clearly articulated and visually grounded reasoning chains. To this end, we propose Grounded Reasoning with Images and Texts (GRIT), a novel method for training MLLMs to think with images. GRIT introduces a grounded reasoning paradigm, in which models generate reasoning chains that interleave natural language and explicit bounding box coordinates. These coordinates point to regions of the input image that the model consults during its reasoning process. Additionally, GRIT is equipped with a reinforcement learning approach, GRPO-GR, built upon the GRPO algorithm. GRPO-GR employs robust rewards focused on the final answer accuracy and format of the grounded reasoning output, which eliminates the need for data with reasoning chain annotations or explicit bounding box labels. As a result, GRIT achieves exceptional data efficiency, requiring as few as 20 image-question-answer triplets from existing datasets. Comprehensive evaluations demonstrate that GRIT effectively trains MLLMs to produce coherent and visually grounded reasoning chains, showing a successful unification of reasoning and grounding abilities.
- Abstract(参考訳): 近年の研究では、最終回答を生み出す前に思考の連鎖を表現した推論モデルの構築において、強化学習(RL)を用いることの有効性が実証されている。
しかしながら、視覚言語タスクの推論を可能にするために進行中の進歩にもかかわらず、既存のオープンソースの視覚推論モデルは、通常、純粋な自然言語による推論コンテンツを生成し、視覚情報の明示的な統合を欠いている。
これにより、明瞭で視覚的に接地された推論連鎖を生成する能力が制限される。
この目的のために,画像とテキストを用いたグラウンドド推論(GRIT)を提案する。
GRITは、自然言語と明示的有界ボックス座標をインターリーブする推論連鎖をモデルが生成する、基底的推論パラダイムを導入している。
これらの座標は、モデルがその推論プロセス中に参照する入力画像の領域を指す。
さらに、GRITはGRPOアルゴリズム上に構築された強化学習手法GRPO-GRを備えている。
GRPO-GRは、最終的な答えの正確さと根拠付き推論出力の形式に焦点を当てた堅牢な報酬を採用しており、推論チェーンアノテーションや明示的な境界ボックスラベルによるデータの必要性を排除している。
その結果、GRITは例外的なデータ効率を達成し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
総合的な評価は、GRITがMLLMを効果的に訓練し、コヒーレントで視覚的に接地された推論連鎖を生産し、推論能力と接地能力の統一に成功していることを示している。
関連論文リスト
- Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs [4.701165676405066]
関連情報を検索するだけでなく、因果推論や説明可能性の提供も重要である。
本稿では,大きな知識グラフをフィルタして原因効果エッジを強調する新しいパイプラインを提案する。
医学的質問応答タスクの実験では、一貫した利得を示し、最大10%の絶対的な改善がある。
論文 参考訳(メタデータ) (2025-01-24T19:31:06Z) - Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。
しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。
この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。
本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文 参考訳(メタデータ) (2025-01-14T05:18:20Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Graph-constrained Reasoning: Faithful Reasoning on Knowledge Graphs with Large Language Models [83.28737898989694]
大規模言語モデル(LLM)は知識ギャップと幻覚のために忠実な推論に苦しむ。
グラフ制約推論(GCR)は、KGにおける構造的知識とLLMにおける非構造的推論を橋渡しする新しいフレームワークである。
GCRは最先端のパフォーマンスを達成し、追加のトレーニングをすることなく、見えないKGに対して強力なゼロショット一般化性を示す。
論文 参考訳(メタデータ) (2024-10-16T22:55:17Z) - Debate on Graph: a Flexible and Reliable Reasoning Framework for Large Language Models [33.662269036173456]
大規模言語モデル(LLM)は、関連する知識の欠如により、現実世界の応用において幻覚に悩まされることがある。
KGQA(Knowledge Graph Question Answering)は、統合のための重要な手掛かりとなる。
LLMの対話型学習機能を活用してグラフ上での推論と議論を行う対話型KGQAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-05T01:11:58Z) - Dual Reasoning: A GNN-LLM Collaborative Framework for Knowledge Graph Question Answering [38.31983923708175]
我々は、知識グラフ(KGs)の明示的推論のために、グラフニューラルネットワーク(GNN)に基づく外部システムを統合する新しいフレームワークであるDual-Reasoningを提案する。
我々は,DualRが高効率と解釈性を維持しつつ,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-06-03T09:38:28Z) - Reasoning on Graphs: Faithful and Interpretable Large Language Model
Reasoning [104.92384929827776]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な推論能力を示している。
彼らは推論中に最新の知識と幻覚を欠いている。
知識グラフ(KG)は、推論のための信頼できる知識源を提供する。
論文 参考訳(メタデータ) (2023-10-02T10:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。