論文の概要: Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous
Demonstration
- arxiv url: http://arxiv.org/abs/2202.07014v1
- Date: Mon, 14 Feb 2022 20:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 15:02:25.846196
- Title: Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous
Demonstration
- Title(参考訳): 不均質なデモから学ぶ生涯学習における戦略発見と混合
- Authors: Sravan Jayanthi, Letian Chen, Matthew Gombolay
- Abstract要約: 実証から学ぶ(LfD)アプローチは、エンドユーザに望ましい振る舞いのデモンストレーションを通じて、ロボットに新しいタスクを教えることを促す。
本稿では,異種間における共通知識を抽出する動的マルチストラテジー・リワード蒸留法(DMSRD)を提案する。
当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%、ログリターンは42%改善しています。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Demonstration (LfD) approaches empower end-users to teach
robots novel tasks via demonstrations of the desired behaviors, democratizing
access to robotics. A key challenge in LfD research is that users tend to
provide heterogeneous demonstrations for the same task due to various
strategies and preferences. Therefore, it is essential to develop LfD
algorithms that ensure \textit{flexibility} (the robot adapts to personalized
strategies), \textit{efficiency} (the robot achieves sample-efficient
adaptation), and \textit{scalability} (robot reuses a concise set of strategies
to represent a large amount of behaviors). In this paper, we propose a novel
algorithm, Dynamic Multi-Strategy Reward Distillation (DMSRD), which distills
common knowledge between heterogeneous demonstrations, leverages learned
strategies to construct mixture policies, and continues to improve by learning
from all available data. Our personalized, federated, and lifelong LfD
architecture surpasses benchmarks in two continuous control problems with an
average 77\% improvement in policy returns and 42\% improvement in log
likelihood, alongside stronger task reward correlation and more precise
strategy rewards.
- Abstract(参考訳): 実証から学ぶ(LfD)アプローチは、エンドユーザーに対して、望ましい振る舞いのデモを通じてロボットに新しいタスクを教えること、ロボット工学へのアクセスを民主化する。
lfd研究における重要な課題は、ユーザは様々な戦略や好みのために同じタスクに対して異種デモを提供する傾向があることである。
したがって、ロボットは、 \textit{flexibility} (ロボットはパーソナライズされた戦略に適応する)、 \textit{efficiency} (サンプル効率の高い適応を実現する)、および \textit{scalability} (ロボットは、大量の行動を表すための簡潔な戦略セットを再利用する)を保証するlfdアルゴリズムを開発することが不可欠である。
本稿では,不均質な実演間の共通知識を蒸留し,学習戦略を活用して混合政策を構築し,利用可能な全データから学習し,改良を続ける,新しいアルゴリズムである動的多戦略報酬蒸留(dmsrd)を提案する。
当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%改善し、ログ可能性は42パーセント改善した。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Fast Lifelong Adaptive Inverse Reinforcement Learning from
Demonstrations [1.6050172226234585]
我々は,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。
FLAIRが適応性(ロボットが不均一でユーザ固有のタスク嗜好に適応する)、効率(ロボットがサンプル効率のよい適応を達成する)、スケーラビリティを実証的に検証する。
FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、デモモデリングに必要なエピソードが平均78%減少した。
論文 参考訳(メタデータ) (2022-09-24T02:48:02Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。