論文の概要: Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation
- arxiv url: http://arxiv.org/abs/2505.18842v1
- Date: Sat, 24 May 2025 19:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.690319
- Title: Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation
- Title(参考訳): 一度だけ見るべきではない:選択的なビジュアルリビジョンによるマルチモーダルインタラクティブ推論を目指して
- Authors: Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu,
- Abstract要約: MLLM(Multimodal Large Language Models)の軽量拡張であるv1を提案する。
v1は単純なポイントアンドコピー機構を導入し、推論プロセスを通してモデルが関連する画像領域を動的に検索できるようにする。
この結果から,動的視覚アクセスはマルチモーダル推論の高速化に有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 22.27973335431714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present v1, a lightweight extension to Multimodal Large Language Models (MLLMs) that enables selective visual revisitation during inference. While current MLLMs typically consume visual input only once and reason purely over internal memory, v1 introduces a simple point-and-copy mechanism that allows the model to dynamically retrieve relevant image regions throughout the reasoning process. This mechanism augments existing architectures with minimal modifications, enabling contextual access to visual tokens based on the model's evolving hypotheses. To train this capability, we construct v1g, a dataset of 300K multimodal reasoning traces with interleaved visual grounding annotations. Experiments on three multimodal mathematical reasoning benchmarks -- MathVista, MathVision, and MathVerse -- demonstrate that v1 consistently improves performance over comparable baselines, particularly on tasks requiring fine-grained visual reference and multi-step reasoning. Our results suggest that dynamic visual access is a promising direction for enhancing grounded multimodal reasoning. Code, models, and data will be released to support future research.
- Abstract(参考訳): 本稿では,MLLM(Multimodal Large Language Models)の軽量拡張であるv1を提案する。
現在のMLLMは通常、内部メモリ上で1回だけ視覚入力を消費するが、v1では単純なポイント・アンド・コピー機構を導入し、推論プロセスを通して関連する画像領域を動的に取得する。
このメカニズムは、最小限の変更で既存のアーキテクチャを拡張し、モデルの進化する仮説に基づいた視覚トークンへのコンテキストアクセスを可能にする。
この能力をトレーニングするために,視覚的接地アノテーションを用いた300Kマルチモーダル推論トレースのデータセットであるv1gを構築した。
マルチモーダルな数学的推論ベンチマークであるMathVista、MathVision、MathVerseの3つの実験は、特にきめ細かいビジュアル参照とマルチステップ推論を必要とするタスクにおいて、v1が同等のベースラインよりも一貫してパフォーマンスを改善することを示した。
この結果から,動的視覚アクセスはマルチモーダル推論の高速化に有望な方向であることが示唆された。
コード、モデル、データは、将来の研究をサポートするためにリリースされます。
関連論文リスト
- Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。
UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。
実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-12-30T06:34:18Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。