論文の概要: MMSkills: Towards Multimodal Skills for General Visual Agents
- arxiv url: http://arxiv.org/abs/2605.13527v2
- Date: Thu, 14 May 2026 13:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.924794
- Title: MMSkills: Towards Multimodal Skills for General Visual Agents
- Title(参考訳): MMSkills: 汎用ビジュアルエージェントのためのマルチモーダルスキルを目指して
- Authors: Kangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu, Weiwen Liu, Weinan Zhang, Yong Yu,
- Abstract要約: MMSkillsは、実行時の視覚的意思決定のための再利用可能なマルチモーダルプロシージャを表現、生成、使用するためのフレームワークである。
MMSkillsは、実行時のステートカードとマルチビューとテキストプロシージャを結合した、コンパクトで状態条件のパッケージである。
GUIとゲームベースのビジュアルエージェントベンチマークによる実験では、MMSkillsはフロンティアとより小さなマルチモーダルエージェントの両方を一貫して改善している。
- 参考スコア(独自算出の注目度): 45.16469424938791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.
- Abstract(参考訳): 再利用可能なスキルはエージェント機能を改善するための中核となるが、既存のスキルパッケージのほとんどは、主にテキストプロンプト、実行可能なコード、学習ルーチンなどの再利用可能な振る舞いをエンコードしている。
再利用は、実行すべき操作だけでなく、関連する状態を認識し、進捗や失敗の視覚的証拠を解釈し、次に何をするかを決定することにも依存する。
我々は、この要件をマルチモーダルな手続き的知識として定式化し、 (I) マルチモーダルなスキルパッケージが含めるべきもの、 (II) そのようなパッケージが公共の相互作用経験から引き出すことができるもの、 (III) エージェントが過剰な画像コンテキストや参照スクリーンショットへの過剰なアンコリングなしに、推論時にマルチモーダルなエビデンスを参照する方法の3つの実践的課題に対処する。
MMSkillsは、実行時の視覚的意思決定のための再利用可能なマルチモーダルプロシージャを表現、生成、使用するためのフレームワークである。
それぞれのMMSkillは、実行時状態カードとマルチビューキーフレームとのテキストプロシージャを結合した、コンパクトで状態条件のパッケージである。
これらのパッケージを構築するために、ワークフロー・グループ化、手続き誘導、視覚的グラウンド化、メタスキル誘導監査を通じて、公共の非評価トラジェクトリを再利用可能なマルチモーダル・スキルに変換するエージェント・トラジェクトリ・トゥ・スキル・ジェネレータを開発した。
選択された状態カードとキーフレームを一時的なブランチで検査し、実環境に合わせて蒸留し、主エージェントの構造化誘導を行う。
GUIとゲームベースのビジュアルエージェントベンチマークによる実験では、MMSkillsはフロンティアとより小さなマルチモーダルエージェントの両方を一貫して改善しており、外部のマルチモーダル手続き的知識がモデル内部の事前知識を補完することを示している。
関連論文リスト
- Exploring Interaction Paradigms for LLM Agents in Scientific Visualization [7.22431217973039]
本稿では,大規模言語モデル(LLM)エージェントが科学的可視化(SciVis)タスクでどのように機能するかを検討する。
我々は、ドメイン固有のエージェントと構造化ツールの使用、コンピュータ利用エージェント、汎用コーディングエージェントの3つの主要な相互作用パラダイムを比較した。
論文 参考訳(メタデータ) (2026-04-30T15:22:28Z) - AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios [32.58358574768901]
実世界のマルチモーダルエージェントは、視覚的証拠に根ざしたマルチステップを解決する。
既存のベンチマークは、主にシングルターンの視覚的推論または特定のツールスキルを評価する。
本稿では,汎用マルチモーダルエージェントのベンチマークであるAgentVistaを紹介する。
論文 参考訳(メタデータ) (2026-02-26T16:30:46Z) - Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations [34.15274225730601]
制御摂動下でのマルチモーダルエージェントの記憶と推論能力を解明するための textbfAgent-ScanKit を提案する。
その結果,機械的記憶が体系的推論より優れていることが示唆された。
本研究は,実環境におけるマルチモーダルエージェントのロバスト推論モデルの必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-10-01T04:29:39Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。