論文の概要: Learning Parameterized Skills from Demonstrations
- arxiv url: http://arxiv.org/abs/2510.24095v1
- Date: Tue, 28 Oct 2025 06:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.803647
- Title: Learning Parameterized Skills from Demonstrations
- Title(参考訳): 実証からパラメタライズドスキルを学習する
- Authors: Vedant Gupta, Haotian Fu, Calvin Luo, Yiding Jiang, George Konidaris,
- Abstract要約: DEPSは、専門家によるデモンストレーションからパラメータ化されたスキルを発見するためのエンドツーエンドのアルゴリズムである。
本手法は,各段階において適切な個別スキルと連続パラメータを選択するメタ政治と協調してパラメータ化スキルポリシーを学習する。
- 参考スコア(独自算出の注目度): 24.77023692578625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DEPS, an end-to-end algorithm for discovering parameterized skills from expert demonstrations. Our method learns parameterized skill policies jointly with a meta-policy that selects the appropriate discrete skill and continuous parameters at each timestep. Using a combination of temporal variational inference and information-theoretic regularization methods, we address the challenge of degeneracy common in latent variable models, ensuring that the learned skills are temporally extended, semantically meaningful, and adaptable. We empirically show that learning parameterized skills from multitask expert demonstrations significantly improves generalization to unseen tasks. Our method outperforms multitask as well as skill learning baselines on both LIBERO and MetaWorld benchmarks. We also demonstrate that DEPS discovers interpretable parameterized skills, such as an object grasping skill whose continuous arguments define the grasp location.
- Abstract(参考訳): 我々は、専門家によるデモンストレーションからパラメータ化スキルを発見するためのエンドツーエンドアルゴリズムであるDEPSを提案する。
本手法は,各段階において適切な個別スキルと連続パラメータを選択するメタ政治と協調してパラメータ化スキルポリシーを学習する。
時間変動推論と情報理論正則化の組み合わせを用いて、潜時変動モデルに共通する縮退の課題に対処し、学習スキルが時間的に拡張され、意味的に意味があり、適応可能であることを保証する。
マルチタスクの専門家による実証実験から得られたパラメータ化スキルの学習は、目に見えないタスクへの一般化を著しく改善することを示す。
本手法は,LIBEROベンチマークとMetaWorldベンチマークの両方において,マルチタスクとスキル学習のベースラインに優れる。
また、DEPは、連続的な引数が把握位置を定義する対象把握スキルなど、解釈可能なパラメータ化スキルを発見することも示す。
関連論文リスト
- SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation [3.1997825444285457]
動的非構造環境における現実世界のロボット操作は、進化するオブジェクト、シーン、タスクに対して生涯の適応性を必要とする。
伝統的な模倣学習は、生涯適応に不適な静的な訓練パラダイムに依存している。
我々は,ロボット操作のための新しいエンドツーエンドの階層型CILポリシーアーキテクチャである,スキル・プロンプトに基づく階層型連続模倣学習(SPECI)を提案する。
論文 参考訳(メタデータ) (2025-04-22T03:30:38Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - Meta-Learning Parameterized Skills [12.845774297648738]
本稿では,伝達可能なパラメータ化スキルを学習し,それらを新しいアクション空間に合成することを目的とした,新しいスキル学習アルゴリズムを提案する。
本研究では,提案アルゴリズムによってエージェントが難易度の高い長期作業(障害物コースとロボット操作)を解くことができることを実証的に実証する。
論文 参考訳(メタデータ) (2022-06-07T21:30:58Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Bayesian Nonparametrics for Offline Skill Discovery [19.28178596044852]
オフライン強化学習と模倣学習における最近の研究は、専門家の一連の軌道からの技術発見のためのいくつかの手法を提案している。
まず、変分推論と連続緩和の進歩を生かしたオプションのオフライン学習法を提案する。
我々は、我々の非パラメトリック拡張が他のスキルフレームワークにどのように適用できるかを示し、我々の手法が最先端のオフラインスキル学習アルゴリズムより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-09T19:01:01Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Learning an Explicit Hyperparameter Prediction Function Conditioned on
Tasks [62.63852372239708]
メタ学習は、観察されたタスクから機械学習の学習方法論を学び、新しいクエリタスクに一般化することを目的としている。
我々は、これらの学習手法を、全てのトレーニングタスクで共有される明示的なハイパーパラメータ予測関数の学習として解釈する。
このような設定は、メタ学習方法論が多様なクエリタスクに柔軟に適合できることを保証する。
論文 参考訳(メタデータ) (2021-07-06T04:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。