論文の概要: CAMD: Coverage-Aware Multimodal Decoding for Efficient Reasoning of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.14745v1
- Date: Mon, 16 Mar 2026 02:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.004682
- Title: CAMD: Coverage-Aware Multimodal Decoding for Efficient Reasoning of Multimodal Large Language Models
- Title(参考訳): CAMD:マルチモーダル大言語モデルの効率的な推論のためのカバレッジ対応マルチモーダルデコーディング
- Authors: Huijie Guo, Jingyao Wang, Lingyu Si, Jiahuan Zhou, Changwen Zheng, Wenwen Qiang,
- Abstract要約: 我々は、サンプリングカバレッジ、インスタンスの難易度、残留リスクをリンクする理論的枠組みを開発する。
解析の結果,マルチモーダル推論は重み付き難易度分布を示すことがわかった。
推定不確実性に応じて動的に割り当てる適応型推論機構であるCoverage-Aware Multimodal Decoding (CAMD)を提案する。
- 参考スコア(独自算出の注目度): 48.33850939857255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have shown impressive reasoning capabilities across vision-language tasks, yet still face the challenge of compute-difficulty mismatch. Through empirical analyses, we identify that existing decoding methods may waste compute on easy cases while underserving hard ones, affecting both model effectiveness and efficiency. To address this issue, we first develop a theoretical framework that links sampling coverage, instance difficulty, and residual risk. Our analysis reveals that multimodal reasoning exhibits a heavy-tailed difficulty distribution; a small subset of hard or ambiguous samples dominates the residual failure probability. Based on this insight, we propose Coverage-Aware Multimodal Decoding (CAMD), an adaptive inference mechanism that dynamically allocates computation according to estimated uncertainty. CAMD integrates evidence-weighted scoring, posterior coverage estimation, and sequential Bayesian updating to balance efficiency and reliability under a limited token budget. Experiments on various benchmark datasets and baselines demonstrate the effectiveness and advantages of our approach.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、視覚言語タスクにまたがる顕著な推論能力を示している。
経験的分析により、既存の復号法は、ハードケースを保存しながら計算を無駄にし、モデルの有効性と効率に影響を及ぼす可能性がある。
この問題に対処するために、まず、サンプリングカバレッジ、インスタンスの難易度、残留リスクをリンクする理論フレームワークを開発する。
分析の結果,マルチモーダル推論は難解な分布を示すことが明らかとなった。
この知見に基づいて,推定不確実性に応じて動的に計算を割り当てる適応推論機構であるCoverage-Aware Multimodal Decoding (CAMD)を提案する。
CAMDは、限られたトークン予算の下で効率と信頼性のバランスをとるために、エビデンス重み付けスコア、後部カバレッジ推定、シーケンシャルベイズ更新を統合している。
様々なベンチマークデータセットとベースラインの実験は、我々のアプローチの有効性と利点を示します。
関連論文リスト
- Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis [17.98292973608615]
マルチモーダル感情分析のための強力なMLLMと軽量なベースラインモデルを編成する新しい不確実性認識協調システム(U-ACS)を提案する。
提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T16:01:58Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [26.005367102695317]
マルチモーダル大規模言語モデルでは,非関連信号とタスク関連情報を区別することが困難である。
無関係なモダリティからの急激な情報は、しばしば大幅な性能低下をもたらすことを示す。
本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:31:32Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。