論文の概要: XSkill: Continual Learning from Experience and Skills in Multimodal Agents
- arxiv url: http://arxiv.org/abs/2603.12056v1
- Date: Thu, 12 Mar 2026 15:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.180883
- Title: XSkill: Continual Learning from Experience and Skills in Multimodal Agents
- Title(参考訳): XSkill:マルチモーダルエージェントにおける経験とスキルからの継続的な学習
- Authors: Guanyu Jiang, Zhaochen Su, Xiaoye Qu, Yi R., Fung,
- Abstract要約: XSkillはマルチモーダルエージェントの経験とスキルから継続的に学習するためのデュアルストリームフレームワークである。
XSkillは、視覚観察における知識抽出と検索の両方の基礎となる。
XSkillは、ツールのみのベースラインと学習ベースのベースラインの両方を一貫して、実質的に上回っている。
- 参考スコア(独自算出の注目度): 21.536999624068716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal agents can now tackle complex reasoning tasks with diverse tools, yet they still suffer from inefficient tool use and inflexible orchestration in open-ended settings. A central challenge is enabling such agents to continually improve without parameter updates by learning from past trajectories. We identify two complementary forms of reusable knowledge essential for this goal: experiences, providing concise action-level guidance for tool selection and decision making, and skills, providing structured task-level guidance for planning and tool use. To this end, we propose XSkill, a dual-stream framework for continual learning from experience and skills in multimodal agents. XSkill grounds both knowledge extraction and retrieval in visual observations. During accumulation, XSkill distills and consolidates experiences and skills from multi-path rollouts via visually grounded summarization and cross-rollout critique. During inference, it retrieves and adapts this knowledge to the current visual context and feeds usage history back into accumulation to form a continual learning loop. Evaluated on five benchmarks across diverse domains with four backbone models, XSkill consistently and substantially outperforms both tool-only and learning-based baselines. Further analysis reveals that the two knowledge streams play complementary roles in influencing the reasoning behaviors of agents and show superior zero-shot generalization.
- Abstract(参考訳): マルチモーダルエージェントは多様なツールで複雑な推論タスクに取り組むことができるようになったが、それでも非効率なツールの使用や、オープンな設定での非フレキシブルなオーケストレーションに悩まされている。
重要な課題は、過去の軌跡から学ぶことでパラメータ更新なしに、そのようなエージェントを継続的に改善できるようにすることである。
この目標に不可欠な2つの相補的な再利用可能な知識を識別する:経験、ツールの選択と意思決定のための簡潔なアクションレベルのガイダンス、そしてスキル、計画とツール使用のための構造化されたタスクレベルのガイダンスを提供する。
この目的のために,マルチモーダルエージェントにおける経験とスキルから連続的な学習を行うためのマルチストリームフレームワークであるXSkillを提案する。
XSkillは、視覚観察における知識抽出と検索の両方の基礎となる。
蓄積中、XSkillは視覚的に接地された要約とクロスロールアウトの批評を通じて、マルチパスロールアウトの経験とスキルを蒸留し、統合する。
推論の間、この知識を現在の視覚的コンテキストに検索して適応し、使用履歴を蓄積して連続的な学習ループを形成する。
XSkillは4つのバックボーンモデルを持つさまざまなドメインにわたる5つのベンチマークで評価され、ツールのみのベースラインと学習ベースのベースラインの両方で大幅にパフォーマンスが向上している。
さらに分析した結果,エージェントの推論行動に影響を与える2つの知識ストリームが相補的な役割を担い,ゼロショットの一般化が優れていることが明らかとなった。
関連論文リスト
- DeepEyesV2: Toward Agentic Multimodal Model [3.775371242454792]
エージェントマルチモーダルモデルは、テキストやイメージを理解するだけでなく、コード実行環境やWeb検索といった外部ツールを積極的に起動し、これらの操作を推論に統合する必要がある。
本稿では,DeepEyesV2を導入し,データ構築,トレーニング方法,モデル評価の観点からエージェント型マルチモーダルモデルの構築方法について検討する。
我々は、RealX-Benchや他の代表的なベンチマーク上でDeepEyesV2を評価し、実世界の理解、数学的推論、探索集約的なタスクにおけるその効果を実証した。
論文 参考訳(メタデータ) (2025-11-07T14:31:20Z) - Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models [10.431923437214719]
VLM(Vision-Language Models)は、新しいタスクを逐次微調整する場合、破滅的な忘れ込みに悩まされる。
本稿では,事前学習時に得られる基礎知識を維持しつつ,新たなタスクの統合を可能にするルーティングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-03T18:39:32Z) - Building Self-Evolving Agents via Experience-Driven Lifelong Learning: A Framework and Benchmark [57.59000694149105]
本稿では、自己進化エージェントを構築するためのフレームワークである、経験駆動型生涯学習(ELL)を紹介する。
ELLは、Experience Exploration、Long-term Memory、Skill Learning、Knowledge Internalizationの4つのコア原則に基づいて構築されている。
また、学生の総合的な大学旅行をシミュレートするELLのベンチマークデータセットであるStuLifeを紹介した。
論文 参考訳(メタデータ) (2025-08-26T13:04:28Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - A Unified Continuous Learning Framework for Multi-modal Knowledge
Discovery and Pre-training [73.7507857547549]
本稿では,継続的学習フレームワークにおける知識発見とマルチモーダル事前学習の統合を提案する。
知識発見のために、事前訓練されたモデルを用いてグラフ上のクロスモーダルリンクを識別する。
モデル事前トレーニングでは、モデル更新をガイドする外部知識として知識グラフが使用される。
論文 参考訳(メタデータ) (2022-06-11T16:05:06Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。