論文の概要: EmbodiSkill: Skill-Aware Reflection for Self-Evolving Embodied Agents
- arxiv url: http://arxiv.org/abs/2605.10332v1
- Date: Mon, 11 May 2026 10:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.734478
- Title: EmbodiSkill: Skill-Aware Reflection for Self-Evolving Embodied Agents
- Title(参考訳): エボディスキル:自己進化型エボディエーターのためのスキル・アウェア・リフレクション
- Authors: Ruofei Ju, Xinrui Wang, Xin Ding, Yifan Yang, Hao Wu, Shiqi Jiang, Qianxi Zhang, Hao Wen, Xiangyu Li, Weijun Wang, Kun Li, Yunxin Liu, Haipeng Dai, Wei Wang, Ting Cao,
- Abstract要約: エージェントは、さまざまな環境にわたるオブジェクト検索、アクション実行、状態変更をガイドするスキルの恩恵を受けることができる。
既存のスキル自己進化法は主にデジタル環境で開発されている。
エボディスキル(EmbodiSkill)は、スキルの自己進化を具現化するためのトレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 28.518726581654743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents can benefit from skills that guide object search, action execution, and state changes across diverse environments. Since embodied environments vary across layouts, object states, and other execution factors, these skills must self-evolve from trajectories generated during task execution. However, existing skill self-evolution methods are mainly developed in digital environments and often convert trajectories into coarse skill updates. Directly applying this paradigm to embodied settings is problematic, because a failed task execution may reflect not only incorrect skill content, but also an execution lapse in which the agent fails to follow valid guidance. We propose EmbodiSkill, a training-free framework for embodied skill self-evolution through skill-aware reflection and targeted revision. EmbodiSkill interprets each trajectory with respect to the current skill, uses skill-changing evidence to update the skill body, and uses execution-lapse evidence to preserve and emphasize valid guidance. Experiments on ALFWorld and EmbodiedBench show that EmbodiSkill consistently improves embodied task success. On ALFWorld, EmbodiSkill enables a frozen Qwen3.5-27B executor to reach 93.28% task success, outperforming GPT-5.2 used as a direct agent without skills by 31.58%. These results show that skill-aware self-evolution helps embodied agents accumulate reusable procedural knowledge from their own trajectories.
- Abstract(参考訳): エージェントは、さまざまな環境にわたるオブジェクト検索、アクション実行、状態変更をガイドするスキルの恩恵を受けることができる。
実施環境はレイアウト、オブジェクト状態、その他の実行要因によって異なるため、これらのスキルはタスク実行中に生成された軌道から自己進化する必要がある。
しかし、既存のスキル自己進化法は主にデジタル環境で開発されており、しばしばトラジェクトリを粗いスキル更新に変換する。
なぜなら、タスク実行が失敗したことは、誤ったスキル内容だけでなく、エージェントが有効なガイダンスに従わなかった実行経過を反映している可能性があるからだ。
エボディスキル(EmbodiSkill)は、スキル・アウェア・リフレクションとターゲットリフレクションを通じて、スキルの自己進化を具現化するためのトレーニング不要のフレームワークである。
EmbodiSkillは、現在のスキルに関する各軌道を解釈し、スキルを変えるエビデンスを使用してスキルボディを更新し、実行ラプスエビデンスを使用して有効なガイダンスを保存し、強調する。
ALFWorldとEmbodiedBenchの実験は、EmbodiSkillが常に実施されたタスクの成功を改善していることを示している。
ALFWorldでは、凍結したQwen3.5-27Bエグゼキューターが93.28%のタスク成功を達成し、GPT-5.2を31.58%上回った。
これらの結果から, 自己進化は, エージェントが自己の軌道から再利用可能な手続き的知識を蓄積するのに役立つことが示唆された。
関連論文リスト
- SkillMaster: Toward Autonomous Skill Mastery in LLM Agents [27.651128308229378]
SkillMasterは、エージェントに新しいスキルを作り、既存のスキルを洗練させ、タスク解決中に蓄積したスキルを選択する訓練フレームワークである。
第一に、私たちは、軌道インフォームドスキルレビューを通じてエージェントを訓練し、完成したエピソードの証拠に基づいて、提案、更新、保持するためのエージェントを指導する。
第2に、各候補スキル編集は、関連するプローブタスクに対する対実的ユーティリティによって評価され、スキル編集決定を訓練するための直接学習信号を提供する。
第3に、DualAdv-GRPOを導入し、タスク解決行動とスキル編集決定の利点を個別に推定し、タスク解決における共同トレーニングを安定化する。
論文 参考訳(メタデータ) (2026-05-09T05:03:00Z) - SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - Switch: Learning Agile Skills Switching for Humanoid Robots [62.14433450799811]
階層的なマルチスキルシステムであるSwitchを導入し、いつでもシームレスなスキル移行を可能にします。
提案手法は,(1)マルチスキル動作データ内の運動の類似性に基づいて,潜在的なクロススキル遷移を確立するスキルグラフ,(2)深い強化学習を通じて,このスキルグラフ上で訓練された全身追跡ポリシー,(3)堅牢なスキル実行とスムーズな移行のためのトラッキングポリシを駆動するオンラインスキルスケジューラの3つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2026-04-16T10:11:28Z) - WebXSkill: Skill Learning for Autonomous Web Agents [104.76374637691212]
WebXSkillは、コードベースのスキルと自然言語ガイダンスのギャップを埋めるフレームワークである。
WebArenaとWebVoyagerでは、WebXSkillはタスク成功率をベースラインで最大9.8と12.9ポイント改善する。
論文 参考訳(メタデータ) (2026-04-14T21:48:15Z) - SkVM: Compiling Skills for Efficient Execution Everywhere [8.617039060377483]
SkVMは、ポータブルで効率的なスキル実行用に設計されたコンパイルおよびランタイムシステムである。
118,000のスキルを分析し、従来のコンパイラ設計からインスピレーションを得ます。
結果は、SkVMがさまざまなモデルや環境におけるタスク完了率を大幅に改善していることを示しています。
論文 参考訳(メタデータ) (2026-04-03T15:11:45Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - Dynamic Dual-Granularity Skill Bank for Agentic RL [34.161117844675324]
D2Skillはエージェント強化学習のための動的二重粒度スキルバンクである。
再利用可能な経験をタスクスキルに整理し、高いレベルのガイダンスとステップスキルを使って、きめ細かい意思決定支援とエラー修正を行う。
論文 参考訳(メタデータ) (2026-03-30T17:32:11Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。