論文の概要: CRIT: Graph-Based Automatic Data Synthesis to Enhance Cross-Modal Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2604.01634v1
- Date: Thu, 02 Apr 2026 05:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.371785
- Title: CRIT: Graph-Based Automatic Data Synthesis to Enhance Cross-Modal Multi-Hop Reasoning
- Title(参考訳): CRIT:クロスモーダルマルチホップ推論を実現するグラフベースの自動データ合成
- Authors: Junyoung Sung, Seungwoo Lyu, Minjun Kim, Sumin An, Arsha Nagrani, Paul Hongsuck Seo,
- Abstract要約: 我々は、複雑なクロスモーダル推論タスクを生成するグラフベースの自動パイプラインで構築された新しいデータセットとベンチマークであるCRITを紹介する。
CRITは、自然画像、ビデオ、テキストリッチソースから様々な領域で構成され、信頼性評価のための手動検証テストセットを含んでいる。
CRITでトレーニングされたモデルでは、SPIQAや他の標準マルチモーダルベンチマークの強化など、クロスモーダルなマルチホップ推論が大幅に向上した。
- 参考スコア(独自算出の注目度): 28.037871701844654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world reasoning often requires combining information across modalities, connecting textual context with visual cues in a multi-hop process. Yet, most multimodal benchmarks fail to capture this ability: they typically rely on single images or set of images, where answers can be inferred from a single modality alone. This limitation is mirrored in the training data, where interleaved image-text content rarely enforces complementary, multi-hop reasoning. As a result, Vision-Language Models (VLMs) frequently hallucinate and produce reasoning traces poorly grounded in visual evidence. To address this gap, we introduce CRIT, a new dataset and benchmark built with a graph-based automatic pipeline for generating complex cross-modal reasoning tasks. CRIT consists of diverse domains ranging from natural images, videos, and text-rich sources, and includes a manually verified test set for reliable evaluation. Experiments on this benchmark reveal that even state-of-the-art models struggle on such reasoning tasks. Models trained on CRIT show significant gains in cross-modal multi-hop reasoning, including strong improvements on SPIQA and other standard multimodal benchmarks.
- Abstract(参考訳): 実世界の推論は、しばしば、マルチホッププロセスにおいて、テキストコンテキストと視覚的手がかりを接続するために、モダリティをまたいだ情報の組み合わせを必要とする。
しかし、ほとんどのマルチモーダルベンチマークは、この能力を捉えていない。それらは通常、単一のモダリティのみから回答を推測できる単一のイメージまたは一連のイメージに依存している。
この制限は、インターリーブされた画像テキストコンテンツが補完的なマルチホップ推論を強制されることが滅多にないトレーニングデータに反映される。
その結果、視覚言語モデル (VLM) はしばしば幻覚を生じさせ、視覚的証拠に乏しい推論の痕跡を生み出す。
このギャップに対処するために、複雑なクロスモーダル推論タスクを生成するグラフベースの自動パイプラインで構築された新しいデータセットとベンチマークであるCRITを紹介します。
CRITは、自然画像、ビデオ、テキストリッチソースから様々な領域で構成され、信頼性評価のための手動検証テストセットを含んでいる。
このベンチマークの実験によると、最先端のモデルでさえそのような推論タスクに苦戦している。
CRITでトレーニングされたモデルでは、SPIQAや他の標準マルチモーダルベンチマークの強化など、クロスモーダルなマルチホップ推論が大幅に向上した。
関連論文リスト
- Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models [27.14308995992974]
事前訓練されたMLLMがマルチモーダルなエビデンスをどのように利用するかを改善するトレーニング不要な推論時間フレームワークであるLook Twice(LoT)を紹介する。
LoTは、どの視覚領域と検索されたテキスト要素がクエリに関連するかを推定し、このハイライトされたエビデンスに条件付けられた回答を生成する。
複数の知識に基づくVQAベンチマークによる実験では、ゼロショットMLLMよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-04-01T18:00:08Z) - On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。