論文の概要: Policy Compatible Skill Incremental Learning via Lazy Learning Interface
- arxiv url: http://arxiv.org/abs/2509.20612v1
- Date: Wed, 24 Sep 2025 23:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.62222
- Title: Policy Compatible Skill Incremental Learning via Lazy Learning Interface
- Title(参考訳): 遅延学習インタフェースによる政策対応型インクリメンタルラーニング
- Authors: Daehee Lee, Dongsu Lee, TaeYoon Kwack, Wonje Choi, Honguk Woo,
- Abstract要約: SILは、下流タスクの再利用技術に基づく階層的ポリシーの効率的な取得を容易にする。
スキルレパートリーが進化するにつれて、既存のスキルベースのポリシーとの互換性を損なう可能性がある。
本稿では,スキルと政治の両立を保証する新しいフレームワークであるSIL-Cを提案する。
- 参考スコア(独自算出の注目度): 21.376306614046033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill Incremental Learning (SIL) is the process by which an embodied agent expands and refines its skill set over time by leveraging experience gained through interaction with its environment or by the integration of additional data. SIL facilitates efficient acquisition of hierarchical policies grounded in reusable skills for downstream tasks. However, as the skill repertoire evolves, it can disrupt compatibility with existing skill-based policies, limiting their reusability and generalization. In this work, we propose SIL-C, a novel framework that ensures skill-policy compatibility, allowing improvements in incrementally learned skills to enhance the performance of downstream policies without requiring policy re-training or structural adaptation. SIL-C employs a bilateral lazy learning-based mapping technique to dynamically align the subtask space referenced by policies with the skill space decoded into agent behaviors. This enables each subtask, derived from the policy's decomposition of a complex task, to be executed by selecting an appropriate skill based on trajectory distribution similarity. We evaluate SIL-C across diverse SIL scenarios and demonstrate that it maintains compatibility between evolving skills and downstream policies while ensuring efficiency throughout the learning process.
- Abstract(参考訳): SIL(Skill Incremental Learning)は、環境とのインタラクションや追加データの統合によって得られる経験を活用して、実施エージェントが時間とともにそのスキルを拡大し、洗練するプロセスである。
SILは、下流タスクの再利用技術に基づく階層的ポリシーの効率的な取得を容易にする。
しかし、スキルレパートリーが進化するにつれて、既存のスキルベースのポリシーとの互換性を損なう可能性があり、再利用性と一般化が制限される。
本研究では,SIL-Cを提案する。SIL-Cは,スキルとポリティクスの両立を保証する新しいフレームワークであり,段階的に学習されたスキルの向上により,政策の再訓練や構造的適応を必要とせず,下流政策のパフォーマンスを向上させることができる。
SIL-Cは、ポリシーによって参照されるサブタスク空間とエージェントの振る舞いにデコードされたスキル空間とを動的に整合させるために、双方向遅延学習に基づくマッピング技術を採用している。
これにより、ポリシーの複雑なタスクの分解から派生した各サブタスクを、軌道分布の類似性に基づいて適切なスキルを選択することで実行することができる。
多様なSILシナリオでSIL-Cを評価し,学習過程を通じて効率性を確保しつつ,進化するスキルと下流ポリシーとの整合性を維持することを実証した。
関連論文リスト
- SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation [3.1997825444285457]
動的非構造環境における現実世界のロボット操作は、進化するオブジェクト、シーン、タスクに対して生涯の適応性を必要とする。
伝統的な模倣学習は、生涯適応に不適な静的な訓練パラダイムに依存している。
我々は,ロボット操作のための新しいエンドツーエンドの階層型CILポリシーアーキテクチャである,スキル・プロンプトに基づく階層型連続模倣学習(SPECI)を提案する。
論文 参考訳(メタデータ) (2025-04-22T03:30:38Z) - Dynamic Contrastive Skill Learning with State-Transition Based Skill Clustering and Dynamic Length Adjustment [14.458170645422564]
本稿では,スキル表現と学習を再定義する新しいフレームワークである動的コントラストスキル学習(DCSL)を提案する。
DCSLは、状態遷移に基づくスキル表現、スキル類似度関数学習、動的スキル長調整の3つの主要なアイデアを導入している。
提案手法は,特に複雑なデータセットやノイズの多いデータセットにおいて,より柔軟で適応的なスキル抽出を可能にし,既存のタスク完了と効率の手法と比較して,競争力のある性能を示す。
論文 参考訳(メタデータ) (2025-04-21T02:11:39Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。