Fugu-MT 論文翻訳(概要): Learning from Imperfect Demonstrations from Agents with Varying Dynamics

論文の概要: Learning from Imperfect Demonstrations from Agents with Varying Dynamics

arxiv url: http://arxiv.org/abs/2103.05910v1
Date: Wed, 10 Mar 2021 07:39:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-12 07:41:56.791695
Title: Learning from Imperfect Demonstrations from Agents with Varying Dynamics
Title（参考訳）: ダイナミクスの異なるエージェントによる不完全なデモンストレーションから学ぶ
Authors: Zhangjie Cao, Dorsa Sadigh
Abstract要約: 我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
参考スコア（独自算出の注目度）: 29.94164262533282
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Imitation learning enables robots to learn from demonstrations. Previous imitation learning algorithms usually assume access to optimal expert demonstrations. However, in many real-world applications, this assumption is limiting. Most collected demonstrations are not optimal or are produced by an agent with slightly different dynamics. We therefore address the problem of imitation learning when the demonstrations can be sub-optimal or be drawn from agents with varying dynamics. We develop a metric composed of a feasibility score and an optimality score to measure how useful a demonstration is for imitation learning. The proposed score enables learning from more informative demonstrations, and disregarding the less relevant demonstrations. Our experiments on four environments in simulation and on a real robot show improved learned policies with higher expected return.
Abstract（参考訳）: 模倣学習は、ロボットがデモから学ぶことを可能にする。以前の模倣学習アルゴリズムは、通常、最適な専門家のデモンストレーションへのアクセスを想定している。しかし、多くの実世界のアプリケーションでは、この仮定は限定的です。収集されたほとんどのデモンストレーションは最適ではなく、わずかに異なるダイナミクスを持つエージェントによって生成される。したがって,実演が最適でない場合や,ダイナミックスが異なるエージェントから引き出される場合,模倣学習の問題に対処できる。我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。提案したスコアは、より情報的なデモンストレーションから学び、あまり関係のないデモを無視します。シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。

関連論文リスト

Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。 Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15～35%以上の絶対的な成功率を達成する。
論文参考訳（メタデータ） (2025-03-05T17:58:16Z)
Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文参考訳（メタデータ） (2023-06-13T17:24:37Z)
A Survey of Demonstration Learning [0.0]
実証学習(Demonstration Learning)は、エージェントがデモンストレーションで示された専門家の行動を模倣してタスクを実行することを学習するパラダイムである。デモから複雑な振る舞いを学ぶ大きな可能性を秘めているため、大きな注目を集めている。環境と対話することなく学習することで、デモ学習はロボット工学や医療といった幅広い現実世界の応用を自動化できる。
論文参考訳（メタデータ） (2023-03-20T15:22:10Z)
Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。 OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文参考訳（メタデータ） (2022-11-13T07:45:06Z)
Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文参考訳（メタデータ） (2022-10-19T16:15:04Z)
Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。 EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文参考訳（メタデータ） (2022-10-04T04:42:26Z)
Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文参考訳（メタデータ） (2022-02-02T21:23:19Z)
Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文参考訳（メタデータ） (2021-10-28T14:15:47Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)
Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文参考訳（メタデータ） (2020-06-14T06:03:06Z)
State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文参考訳（メタデータ） (2020-04-07T17:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。