論文の概要: Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning
- arxiv url: http://arxiv.org/abs/2510.12712v2
- Date: Thu, 16 Oct 2025 00:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 11:58:42.080404
- Title: Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning
- Title(参考訳): Beyond Seeing: ツールによる画像認識・変換・推論におけるマルチモーダルLCMの評価
- Authors: Xingang Guo, Utkarsh Tyagi, Advait Gosai, Paula Vergara, Ernesto Gabriel Hernández Montoya, Chen Bo Calvin Zhang, Bin Hu, Yunzhong He, Bing Liu, Rakshith Sharma Srinivasa,
- Abstract要約: MLLMのビジュアルツール利用推論ベンチマークであるVisualToolBenchを紹介する。
VisualToolBenchは、複雑な視覚的テキストタスクに対するMLLMの知覚、変換、推論能力について、厳格に評価している。
評価の結果,現在のMLLMは視覚と汎用ツールの効果的な統合を必要とするタスクに苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 16.686834520228132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are increasingly applied in real-world scenarios where user-provided images are often imperfect, requiring active image manipulations such as cropping, editing, or enhancement to uncover salient visual cues. Beyond static visual perception, MLLMs must also think with images: dynamically transforming visual content and integrating it with other tools to solve complex tasks. However, this shift from treating vision as passive context to a manipulable cognitive workspace remains underexplored. Most existing benchmarks still follow a think about images paradigm, where images are regarded as static inputs. To address this gap, we introduce VisualToolBench, a visual tool-use reasoning benchmark that rigorously evaluates MLLMs' ability to perceive, transform, and reason across complex visual-textual tasks under the think-with-images paradigm. VisualToolBench comprises 1,204 challenging, open-ended vision tasks (603 single-turn, 601 multi-turn) spanning across five diverse domains, each paired with detailed rubrics to enable systematic evaluation. Our evaluation shows that current MLLMs struggle with tasks requiring effective integration of vision and general-purpose tools. Even the strongest model (GPT-5-think) reaches only 18.68% pass rate. We further observe divergent tool-use behaviors, with OpenAI models benefiting from diverse image manipulations while Gemini-2.5-pro shows no improvement. By introducing the first benchmark centered on think with images, VisualToolBench offers critical insights for advancing visual intelligence in MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ユーザが提供した画像が不完全な場合が多い現実のシナリオにおいて、トリミングや編集、視覚的な透明な手がかりを明らかにするために、アクティブな画像操作を必要とする。
静的な視覚認識以外にも、MLLMは視覚コンテンツを動的に変換し、複雑なタスクを解決するために他のツールと統合する、イメージについても考える必要がある。
しかし、視覚を受動的文脈として扱うことから、操作可能な認知ワークスペースへのシフトは、まだ未解明のままである。
既存のベンチマークのほとんどは、画像が静的な入力と見なされるイメージパラダイムについて、依然としてフォローしている。
このギャップに対処するために、私たちはVisualToolBenchというビジュアルツール利用推論ベンチマークを紹介します。これは、思考と想像のパラダイムの下で複雑な視覚的テキストタスクを知覚し、変換し、推論するMLLMの能力を厳格に評価します。
VisualToolBenchは5つの異なるドメインにまたがる1,204の挑戦的で、オープンなビジョンタスク(603のシングルターン、601のマルチターン)で構成され、それぞれが詳細なルーリックと組み合わせて、体系的な評価を可能にする。
評価の結果,現在のMLLMは視覚と汎用ツールの効果的な統合を必要とするタスクに苦慮していることがわかった。
最強のモデル(GPT-5-think)でさえ18.68%のパスレートにしか達していない。
Gemini-2.5-proは改善しないが,OpenAIモデルは多様な画像操作の恩恵を受ける。
VisualToolBenchは、イメージによる思考に焦点を当てた最初のベンチマークを導入することで、MLLMにおける視覚インテリジェンス向上のための重要な洞察を提供する。
関連論文リスト
- Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。
我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。
Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration [39.2654025469784]
我々は,視覚レベルの推論に適した訓練不要でモデルに依存しない木探索アルゴリズムZoom Eyeを提案する。
このアルゴリズムにより、MLLMは、タスク関連視覚的エビデンスを探索するために、ルートから葉ノードへナビゲートすることで、人間の様のズーム動作をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-25T02:15:30Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。