論文の概要: MUSE: A Unified Agentic Harness for MLLMs
- arxiv url: http://arxiv.org/abs/2606.03005v1
- Date: Tue, 02 Jun 2026 01:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.676465
- Title: MUSE: A Unified Agentic Harness for MLLMs
- Title(参考訳): MUSE:MLLMのための統一されたエージェントハーネス
- Authors: Jianglin Lu, Hailing Wang, Xu Ma, Qihua Dong, Mingyuan Zhang, Yizhou Wang, Yun Fu,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)のための統一型構造化実行ハーネスであるMUSEを紹介する。
MUSEは、タスク表現、視覚処理、知覚ツールの使用、構造化解析、決定論的検証、検証誘導修復のための構成可能なモジュールを備えた既製のMLLMをラップする。
視覚的空間計画,視覚知覚,マルチモーダル推論,きめ細かな視覚的識別にまたがる様々なベンチマークでMUSEを評価した。
- 参考スコア(独自算出の注目度): 43.68626652427212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress, multimodal large language models (MLLMs) still fail on tasks that humans solve effortlessly, such as navigating a grid maze from a screenshot or selecting the correct puzzle piece. Rather than retraining the model, we ask a complementary question: how much capability can be elicited from a frozen MLLM purely by improving the execution scaffold around it? We introduce MUSE, a multimodal unified structured execution harness that wraps any off-the-shelf MLLM with composable modules for task representation, visual processing, perception tool use, structured parsing, deterministic verification, and verifier-guided repair, without any model retraining. We evaluate MUSE across diverse benchmarks spanning visual spatial planning, visual perception, multimodal reasoning, and fine-grained visual discrimination, using multiple state-of-the-art MLLMs. MUSE delivers consistent gains over the bare model in all settings, with the largest jumps on challenging instances. Further analysis reveals that many MLLM failures arise from harness-level shortcomings rather than fundamental model deficits, and can be addressed through verifier-guided repair without touching the model. These findings highlight the agentic multimodal harness as a critical yet underexplored design dimension, offering an orthogonal avenue for improving MLLMs beyond model-centric optimization.
- Abstract(参考訳): 急速な進歩にもかかわらず、マルチモーダルな大規模言語モデル(MLLM)は、スクリーンショットからグリッド迷路をナビゲートしたり、正しいパズルのピースを選択するなど、人間が絶えず解決するタスクで失敗する。
モデルを再トレーニングする代わりに、補完的な質問をする:凍結したMLLMから、その周りの実行基盤を純粋に改善することで、どれくらいの能力を引き出すことができるのか?
MUSEは,タスク表現,視覚処理,知覚ツールの使用,構造化解析,決定論的検証,バリデーション誘導修復などのモジュールをモデル再構成なしで実装可能な,既製のMLLMをラップしたマルチモーダル統一型構造化実行ハーネスである。
我々は、複数の最先端MLLMを用いて、視覚空間計画、視覚知覚、マルチモーダル推論、きめ細かい視覚識別にまたがる様々なベンチマークでMUSEを評価した。
MUSEは、すべての設定において、ベアモデルに対して一貫したゲインを提供し、挑戦的なインスタンスに対して最大のジャンプを提供する。
さらに分析したところ、MLLMの失敗の多くは基本モデル欠陥よりもハーネスレベルの欠点から生じており、モデルに触れることなく検証者誘導修復によって対処できることがわかった。
これらの結果から, エージェント型マルチモーダルハーネスは, モデル中心最適化を超えてMLLMを改善するための直交経路として, 重要かつ過小評価されている設計次元として強調された。
関連論文リスト
- Indexing Multimodal Language Models for Large-scale Image Retrieval [15.19064519873711]
MLLM(Multimodal Large Language Models)は、強力なクロスモーダル推論能力を示しているが、視覚のみのタスクの可能性はまだ未定である。
本研究では,MLLMをインスタンスレベルの画像・画像検索のための訓練不要類似度推定器として検討する。
提案手法は,画像のペア化を促進し,次点確率を類似度スコアに変換し,大規模検索パイプライン内でゼロショットの再ランク付けを可能にする。
論文 参考訳(メタデータ) (2026-04-14T19:59:36Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Visual Instruction Bottleneck Tuning [11.675789515164269]
マルチモーダルな大言語モデル(MLLM)は、分散シフトの下で不慣れなクエリに遭遇した場合、性能が低下する。
本稿では,表現学習の観点からMLLMの一般化とロバスト性を高めるための代替手法を提案する。
情報ボトルネック(IB)の原則にインスパイアされた我々は、MLLMのためのIBの変動的下限を導出し、実用的な実装であるVisual Instruction Bottleneck Tuning(Vittle)を考案する。
論文 参考訳(メタデータ) (2025-05-20T05:24:53Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。