論文の概要: Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation
- arxiv url: http://arxiv.org/abs/2505.10522v1
- Date: Thu, 15 May 2025 17:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.438816
- Title: Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation
- Title(参考訳): 知識獲得・適応・構成(KCAC):ロボット操作におけるクロスタスクカリキュラム学習のためのフレームワーク
- Authors: Xinrui Wang, Yan Jin,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボット操作において顕著な可能性を示しているが、サンプルの非効率性や解釈可能性の欠如において課題に直面している。
本稿では,クロスタスクのカリキュラム学習を通じてRLに知識伝達を統合するための知識キャプチャ,適応,構成フレームワークを提案する。
その結果,従来のRL法に比べてタスク成功率を10%向上させながら,トレーニング時間の40%削減を実現した。
- 参考スコア(独自算出の注目度): 6.683222869973898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has demonstrated remarkable potential in robotic manipulation but faces challenges in sample inefficiency and lack of interpretability, limiting its applicability in real world scenarios. Enabling the agent to gain a deeper understanding and adapt more efficiently to diverse working scenarios is crucial, and strategic knowledge utilization is a key factor in this process. This paper proposes a Knowledge Capture, Adaptation, and Composition (KCAC) framework to systematically integrate knowledge transfer into RL through cross-task curriculum learning. KCAC is evaluated using a two block stacking task in the CausalWorld benchmark, a complex robotic manipulation environment. To our knowledge, existing RL approaches fail to solve this task effectively, reflecting deficiencies in knowledge capture. In this work, we redesign the benchmark reward function by removing rigid constraints and strict ordering, allowing the agent to maximize total rewards concurrently and enabling flexible task completion. Furthermore, we define two self-designed sub-tasks and implement a structured cross-task curriculum to facilitate efficient learning. As a result, our KCAC approach achieves a 40 percent reduction in training time while improving task success rates by 10 percent compared to traditional RL methods. Through extensive evaluation, we identify key curriculum design parameters subtask selection, transition timing, and learning rate that optimize learning efficiency and provide conceptual guidance for curriculum based RL frameworks. This work offers valuable insights into curriculum design in RL and robotic learning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボット操作において顕著な可能性を示しているが、サンプルの非効率性と解釈可能性の欠如による課題に直面しており、現実のシナリオにおける適用性を制限している。
エージェントを深く理解し、多様な作業シナリオにより効率的に適応させることが不可欠であり、このプロセスでは戦略的知識の利用が重要な要素である。
本稿では,クロスタスクのカリキュラム学習を通じて,知識伝達をRLに体系的に統合する知識キャプチャ,適応,合成(KCAC)フレームワークを提案する。
KCACは、複雑なロボット操作環境であるCausalWorldベンチマークにおいて、2ブロック積み重ねタスクを用いて評価される。
我々の知る限り、既存のRLアプローチはこの課題を効果的に解決できず、知識獲得の欠陥を反映している。
本研究では,厳密な制約と厳密な順序付けを排除し,エージェントが同時に全報酬を最大化し,柔軟なタスク完了を可能にすることで,ベンチマーク報酬関数を再設計する。
さらに、2つの自設計のサブタスクを定義し、効率的な学習を容易にするために構造化されたクロスタスクカリキュラムを実装した。
その結果,従来のRL法に比べてタスク成功率を10%向上させながら,トレーニング時間の40%削減を実現した。
広範囲な評価を通じて,学習効率を最適化し,カリキュラムベースのRLフレームワークの概念的ガイダンスを提供するための,重要なカリキュラム設計パラメータのサブタスク選択,遷移タイミング,学習率を同定する。
この研究は、RLにおけるカリキュラム設計とロボット学習に関する貴重な洞察を提供する。
関連論文リスト
- Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT (Chain-of-Thought) は複雑な問題を解決する重要な方法となっている。
大規模言語モデル(LLM)はドメイン固有のタスクを正確に分解するのに苦労することが多い。
本稿では,LLMタスクを能力,スキル,知識の観点から再検討する理論モデルであるRe-TASKフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-13T13:58:23Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Variational Curriculum Reinforcement Learning for Unsupervised Discovery
of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。
規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。
また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-30T10:34:25Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。