論文の概要: Robot Policy Transfer with Online Demonstrations: An Active Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2503.12993v1
- Date: Mon, 17 Mar 2025 09:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:58.248408
- Title: Robot Policy Transfer with Online Demonstrations: An Active Reinforcement Learning Approach
- Title(参考訳): オンラインデモによるロボット政策伝達 : アクティブ強化学習アプローチ
- Authors: Muhan Hou, Koen Hindriks, A. E. Eiben, Kim Baraka,
- Abstract要約: 本稿では,オンライン・デモテーションを用いたポリシ・トランスファーについて紹介する。
本手法は, 多様な環境特性にまたがる政策伝達を含む8つのロボットシナリオで評価する。
その結果, 本手法は, 平均成功率, サンプル効率において, 全ベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 3.637365301757111
- License:
- Abstract: Transfer Learning (TL) is a powerful tool that enables robots to transfer learned policies across different environments, tasks, or embodiments. To further facilitate this process, efforts have been made to combine it with Learning from Demonstrations (LfD) for more flexible and efficient policy transfer. However, these approaches are almost exclusively limited to offline demonstrations collected before policy transfer starts, which may suffer from the intrinsic issue of covariance shift brought by LfD and harm the performance of policy transfer. Meanwhile, extensive work in the learning-from-scratch setting has shown that online demonstrations can effectively alleviate covariance shift and lead to better policy performance with improved sample efficiency. This work combines these insights to introduce online demonstrations into a policy transfer setting. We present Policy Transfer with Online Demonstrations, an active LfD algorithm for policy transfer that can optimize the timing and content of queries for online episodic expert demonstrations under a limited demonstration budget. We evaluate our method in eight robotic scenarios, involving policy transfer across diverse environment characteristics, task objectives, and robotic embodiments, with the aim to transfer a trained policy from a source task to a related but different target task. The results show that our method significantly outperforms all baselines in terms of average success rate and sample efficiency, compared to two canonical LfD methods with offline demonstrations and one active LfD method with online demonstrations. Additionally, we conduct preliminary sim-to-real tests of the transferred policy on three transfer scenarios in the real-world environment, demonstrating the policy effectiveness on a real robot manipulator.
- Abstract(参考訳): Transfer Learning(TL)は、ロボットが学習したポリシーをさまざまな環境、タスク、実施物間で転送することを可能にする強力なツールである。
このプロセスをさらに促進するために、より柔軟で効率的な政策伝達のために、LfD(Learning from Demonstrations)と組み合わせる努力がなされている。
しかし、これらのアプローチは、政策移行開始前に収集されたオフラインのデモンストレーションに限られており、これはLfDが引き起こした共分散シフトの本質的な問題に悩まされ、政策移行のパフォーマンスを損なう可能性がある。
一方、スクラッチからの学習における広範な研究により、オンラインのデモンストレーションは、共分散シフトを効果的に軽減し、サンプル効率を向上させることで、より良い政策パフォーマンスをもたらすことが示されている。
この研究はこれらの洞察を組み合わせて、オンラインのデモンストレーションを政策伝達環境に導入する。
我々は,限定的な実証予算の下で,オンライン・エピソード・エキスパート・デモのためのクエリのタイミングと内容の最適化が可能な,ポリシ・トランスファーのためのアクティブなLfDアルゴリズムであるオンライン・デモテーションを用いたポリシ・トランスファーを提案する。
本手法は, 多様な環境特性, タスク目標, ロボットの実施形態をまたいだポリシー伝達を含む8つのロボットシナリオで評価し, ソースタスクから関連するが異なるターゲットタスクへ, トレーニングされたポリシーを伝達することを目的とした。
その結果,本手法は,オフライン実演による2つの標準LfD法と,オンライン実演による1つのアクティブLfD法と比較して,平均成功率とサンプル効率において全ベースラインを著しく上回っていることがわかった。
さらに,実環境における3つの移動シナリオに対する移動政策の予備的シミュレートを行い,実際のロボットマニピュレータにおける政策の有効性を実証した。
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - In-Context Transfer Learning: Demonstration Synthesis by Transferring Similar Tasks [93.46282380831339]
コンテキスト内学習は、ターゲットタスクのデモを提供することで、大きな言語モデルが様々なタスクに適応するのに役立つ。
提案するICTL(In-Context Transfer Learning)は,類似のソースタスクからラベル付きデモを転送することで,ターゲットタスクのデモンストレーションを合成する。
Super-NIの実験では、ICTLはスクラッチから平均2.0%の効率で合成に優れていた。
論文 参考訳(メタデータ) (2024-10-02T13:37:54Z) - Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with
Prompt Learning [4.195122359359966]
大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。
本研究では,LLMを利用してシステムダイナミクスの理解と解析を行う。
論文 参考訳(メタデータ) (2023-08-28T03:49:13Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Predicting Sim-to-Real Transfer with Probabilistic Dynamics Models [3.7692466417039814]
本稿では,RL ポリシーの sim-to-real 転送性能を予測する手法を提案する。
確率力学モデルはポリシーに沿って訓練され、実世界の軌道の固定セットで評価される。
論文 参考訳(メタデータ) (2020-09-27T15:06:54Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。