論文の概要: MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?
- arxiv url: http://arxiv.org/abs/2606.01993v1
- Date: Mon, 01 Jun 2026 09:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.706344
- Title: MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?
- Title(参考訳): MMG2スキル: エージェントは自己進化するスキルに拡散できるか?
- Authors: Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu,
- Abstract要約: MMG2Skillは、ワイルドガイドをエージェント実行可能なスキルに変換するためのフレームワークである。
MMG2Skillは、モデルドメイン設定毎にバニラベースラインエージェントを一貫して上回る。
- 参考スコア(独自算出の注目度): 36.863282825853645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. However, such knowledge is often multimodal, heterogeneous, noisy, and implicitly assumes human executors, making it difficult to use directly as the skills required by agents. To bridge the gap between human-oriented guides and agent-executable skills, we formalize this problem as guide-to-skill learning: converting in-the-wild guides into executable skills and continuously improving them from trajectories observable to the agent. To evaluate the capability of existing agents on this task, we introduce MMG2Skill-Bench, the first benchmark designed for this problem. We further propose MMG2Skill, a closed-loop framework that compiles guides into editable skills, conditions a fixed vision-language model (VLM) agent on these skills during execution, and revises the skills from trajectory-level root-cause feedback without using benchmark scores. Across GUI control, open-ended gameplay, and strategic card play with six VLM backbones, MMG2Skill consistently outperforms vanilla baseline agents in every model-domain setting, achieving macro-average gains of +12.8 to +25.3 percentage points across backbones. Ablation studies show that directly prompting agents with raw guides can degrade performance, while both structured skill construction and trajectory-driven revision are necessary for the observed improvements. On success-inferable tasks, analyzer-based early stopping further prevents late-stage performance regressions and saves 25%-53% of attempts when the success signal is properly calibrated.
- Abstract(参考訳): Web上の手続き的知識の欠如は、エージェントが長期的タスクを解くのを助ける大きな可能性を秘めている。
しかし、そのような知識はしばしば多様であり、異質で、騒々しく、暗黙的に人間の執行者を仮定するので、エージェントが必要とするスキルとして直接使うことは困難である。
人為的ガイドとエージェント実行スキルのギャップを埋めるため、我々はこの問題をガイド・トゥ・スキル・ラーニング(ガイド・トゥ・スキル・ラーニング)として定式化し、ワイヤード・ガイドを実行可能なスキルに変換し、エージェントに観察可能な軌道から継続的に改善する。
この課題における既存のエージェントの能力を評価するために,この問題のために設計された最初のベンチマークであるMMG2Skill-Benchを紹介する。
さらに,MMG2Skillを提案する。これは,ガイドを編集可能なスキルにコンパイルするクローズドループフレームワークで,実行中にこれらのスキルに固定視覚言語モデル(VLM)エージェントを条件付けし,ベンチマークスコアを使わずに軌道レベルの根源フィードバックからスキルを改良する。
GUI制御、オープンエンドゲームプレイ、戦略的カードプレイを6つのVLMバックボーンで行うMMG2Skillは、モデルドメイン設定ごとにバニラベースラインエージェントを常に上回り、バックボーン全体のマクロ平均ゲイン+12.8から+25.3ポイントを達成する。
アブレーション研究により, 生のガイドを用いた直接刺激剤は性能を低下させるが, 観察された改善には, 構造化された技術構築と軌道駆動リビジョンの両方が必要であることが示された。
成功推論可能なタスクでは、アナライザベースの早期停止は、さらに後期的なパフォーマンスの低下を防止し、成功信号が適切に校正されると、25%から53%の試行を節約する。
関連論文リスト
- Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents [9.144810798419975]
LLMエージェントは、長期の対話的タスクのパフォーマンスを向上させるために、意思決定時に取得した外部キュレートされたスキル・プロデューラルな指示を徐々に取り出す。
エージェントの重みを変更することなく、各ターゲットのバックボーンにスキルを適応させるフレームワークであるMASA Model-Aware Skill Alignmentを提案する。
MASAは、最強のベースラインで最大25.8ポイントを獲得して、常に最高の総合成績を収めている。
論文 参考訳(メタデータ) (2026-05-29T01:34:42Z) - Harnessing LLM Agents with Skill Programs [58.356514745548026]
HASPは、実行可能なプログラム関数(PF)にスキルをアップグレードする新しいフレームワークです。
PFは障害が発生しやすい状態を起動し、次のアクションを変更したり、修正コンテキストを注入する実行可能なガードレールとして機能する。
HASPは、Web検索、数学推論、コーディングタスクにおいて、トレーニング不要とトレーニングベースの両方の手法と比較して、大幅に向上している。
論文 参考訳(メタデータ) (2026-05-18T01:35:11Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。
再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。
SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文 参考訳(メタデータ) (2026-05-09T19:24:11Z) - SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills [21.971456179996093]
Trace2Skillは、人間の専門家がいかにスキルを作成できるかを反映するフレームワークです。
個々のトラジェクトリにシーケンシャルに反応する代わりに、Trace2Skillは並列なサブエージェント群を派遣して、さまざまな実行プールを分析する。
トラジェクトリ固有のレッスンを抽出し、階層的にそれらをインダクティブ推論を通じて統合され、コンフリクトフリーなスキルディレクトリに集約する。
論文 参考訳(メタデータ) (2026-03-26T08:26:38Z) - EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。
EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。
われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-03T09:07:22Z) - K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control [73.50217471850658]
K2-Agentは、計画と実行のための宣言的(何)および手続き的(どのように)知識を知り、共進化させることによって、人間のような認知をモデル化する階層的なフレームワークである。
挑戦的なAndroidWorldベンチマークでは、K2-Agentは生とオープンソースのバックボーンのみを使用して76.1%の成功率を達成した。
論文 参考訳(メタデータ) (2026-02-28T14:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。