論文の概要: PANDO: Efficient Multimodal AI Agents via Online Skill Distillation
- arxiv url: http://arxiv.org/abs/2605.24785v1
- Date: Sun, 24 May 2026 00:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.437464
- Title: PANDO: Efficient Multimodal AI Agents via Online Skill Distillation
- Title(参考訳): PANDO: オンラインスキル蒸留による効率的なマルチモーダルAIエージェント
- Authors: Yubo Li, Yidi Miao, Haotian Shen, Yuxin Liu,
- Abstract要約: 単ロールのオンラインスキル蒸留フレームワークであるPANDOを紹介します。
910のVisualWebArenaタスクの完全なセットで、PANDOは58.3%の成功率を達成した。
300タスクのアブレーションは、ルールとルーチンがほとんどの成功をもたらすことを示している。
- 参考スコア(独自算出の注目度): 9.309788574955034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal web agents often rely on increased inference-time computation, including rollout search, verifier passes, offline skill discovery, and specialist model stacks. This raises a central question: can a web agent become more efficient as it accumulates experience, rather than more expensive? We first analyze trajectories from VisualWebArena and identify three recurring sources of inefficiency: repeat-action loops, hidden discovery costs, and low prompt-cache reuse. We then introduce PANDO, a single-rollout online skill-distillation framework that maintains a structured Skill Library and combines progress reflection, confidence-based skill demotion, hierarchical routing, visual compression, and cache-aware prompting. On the full set of 910 VisualWebArena tasks, PANDO achieves a 58.3% success rate, outperforming SGV (54.0%) and our WALT reproduction (45.2%), while using 58% fewer tokens than SGV and 61% fewer tokens than WALT, without any pre-evaluation discovery budget. A 300-task ablation further shows that rules and routines provide most of the success gains, while routing, compression, and cache-aware prompting convert the larger skill library into lower marginal token cost. Finally, we introduce three trajectory-level efficiency metrics -- Action Repetition Rate, Step Overhead Ratio, and Prompt Cache Utilization -- to make efficiency visible beyond terminal success.
- Abstract(参考訳): マルチモーダルWebエージェントの最近の進歩は、ロールアウト検索、検証パス、オフラインスキル発見、スペシャリストモデルスタックなど、推論時間の増大に依存することが多い。
これは、Webエージェントがコストよりも、エクスペリエンスを蓄積するにつれて、より効率的になるかという、中心的な疑問を提起する。
まず、VisualWebArenaからのトラジェクトリを分析し、繰り返し動作ループ、隠れた発見コスト、低いプロンプト・キャッシュの再利用の3つの非効率源を同定する。
次に、構造化スキルライブラリを保守し、進捗反映、信頼に基づくスキルデモーション、階層的ルーティング、ビジュアル圧縮、キャッシュ認識プロンプトを組み合わせた、単一ロールアウトのオンラインスキル蒸留フレームワークであるPANDOを紹介します。
910のVisualWebArenaタスクの完全なセットにおいて、PANDOは58.3%の成功率を達成し、SGV(54.0%)とWALT再現(45.2%)を上回りました。
300タスクのアブレーションにより、ルールとルーチンは、ルーティング、圧縮、キャッシュアウェアといった大きなスキルライブラリを限界トークンコストの低いものにします。
最後に、3つのトラジェクトリレベルの効率指標 – アクション反復率、ステップオーバーヘッド比率、Promptキャッシュ利用 – を導入して、ターミナルの成功を超えて効率を見える化します。
関連論文リスト
- HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents [6.536862833942476]
視覚的接地と検索を1つのアトミックアクションに融合させる並列マルチモーダル検索エージェントHyperEyesを提案する。
6つのベンチマークで、HyperEyes-30Bは最上位のオープンソースエージェントを9.9%上回り、平均5.3倍のツールコールラウンドを減らした。
論文 参考訳(メタデータ) (2026-05-08T03:16:08Z) - M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval [64.06936170117943]
M$2$は、文脈効率と意思決定を最適化するために設計されたトレーニング不要のメモリ拡張フレームワークである。
本手法では,対話履歴を簡潔な状態更新に圧縮する動的トラジェクトリ要約(Internal Memory)と,オフラインのインサイトバンクから取得した実行可能なガイドラインでエージェントを誘導するInsight Retrieval Augmentation(External Memory)を併用する。
論文 参考訳(メタデータ) (2026-02-28T06:59:51Z) - DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。
WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文 参考訳(メタデータ) (2025-11-19T12:38:43Z) - Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。