論文の概要: AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
- arxiv url: http://arxiv.org/abs/2602.02676v1
- Date: Mon, 02 Feb 2026 19:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.015247
- Title: AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
- Title(参考訳): AdaptMMBench: モード選択と推論のための適応型マルチモーダル推論のベンチマーク
- Authors: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li,
- Abstract要約: 本稿では,実世界,OCR,GUI,知識,数学の5分野にわたる適応型マルチモーダル推論のベンチマークであるAdaptMMBenchを提案する。
評価の結果,適応モード選択はモデルキャパシティに比例するが,最終的な精度から切り離されることが明らかとなった。
- 参考スコア(独自算出の注目度): 35.95284812390557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.
- Abstract(参考訳): 適応型マルチモーダル推論は視覚言語モデル(VLM)において有望なフロンティアとして現れており、ツール拡張視覚推論とテキスト推論を動的に調整し、有効性と効率を両立させることを目的としている。
しかし、既存の評価は静的な難易度ラベルと単純化されたメトリクスに依存しており、様々なモデル能力に対する難易度の動的な性質を捉えられなかった。
その結果、微粒なプロセス解析を無視しながら、適応モード選択と一般性能の区別を曖昧にした。
本稿では,実世界,OCR,GUI,知識,数学の5分野にわたる適応的マルチモーダル推論のための総合的なベンチマークであるAdaptMMBenchを提案する。
AdaptMMBenchは、マシューズ相関係数(MCC)メトリクスを使用して、異なる推論モードの選択合理性を評価し、モデルの能力境界に基づいてタスクの困難を動的に識別することで、このメタ認知能力を分離する。
さらに、AdaptMMBenchは、キーステップのカバレッジ、ツールの有効性、計算効率の多次元プロセス評価を容易にする。
評価の結果,適応モード選択はモデルキャパシティに比例するが,最終的な精度から切り離されることが明らかとなった。
逆に、重要なステップカバレッジはパフォーマンスと一致しているが、ツールの有効性はモデルアーキテクチャ間では非常に矛盾している。
関連論文リスト
- Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models [0.0]
大規模言語モデル(LLM)は、マルチタスク学習を利用して特定のタスクを同時に処理することで、感情分析の一般的なパラダイムとなっている。
動的適応最適化(DAO)モジュールを用いた新しいマルチタスク学習フレームワークを提案する。
この研究は、平均二乗誤差(MSE)と精度(ACC)を、以前の研究と比べてそれぞれ15.58%、1.24%改善した。
論文 参考訳(メタデータ) (2024-08-15T19:13:38Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [50.6382396309597]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。