論文の概要: Towards Sample-efficient Apprenticeship Learning from Suboptimal
Demonstration
- arxiv url: http://arxiv.org/abs/2110.04347v1
- Date: Fri, 8 Oct 2021 19:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:42:23.608125
- Title: Towards Sample-efficient Apprenticeship Learning from Suboptimal
Demonstration
- Title(参考訳): 準最適実演からサンプル効率のよい見習い学習へ
- Authors: Letian Chen, Rohan Paleja, Matthew Gombolay
- Abstract要約: 本稿では, トラジェクトリ劣化に対する系統的代替策を検討するために, S3RRを提案する。
S3RRは、最適でないデモンストレーションフレームワークから最先端の学習に対して、地道と同等あるいはより良い報酬相関を学習できる。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Demonstration (LfD) seeks to democratize robotics by enabling
non-roboticist end-users to teach robots to perform novel tasks by providing
demonstrations. However, as demonstrators are typically non-experts, modern LfD
techniques are unable to produce policies much better than the suboptimal
demonstration. A previously-proposed framework, SSRR, has shown success in
learning from suboptimal demonstration but relies on noise-injected
trajectories to infer an idealized reward function. A random approach such as
noise-injection to generate trajectories has two key drawbacks: 1) Performance
degradation could be random depending on whether the noise is applied to vital
states and 2) Noise-injection generated trajectories may have limited
suboptimality and therefore will not accurately represent the whole scope of
suboptimality. We present Systematic Self-Supervised Reward Regression, S3RR,
to investigate systematic alternatives for trajectory degradation. We carry out
empirical evaluations and find S3RR can learn comparable or better reward
correlation with ground-truth against a state-of-the-art learning from
suboptimal demonstration framework.
- Abstract(参考訳): 実証から学ぶ(LfD)は、ロボット工学を民主化するために、非ロボティスティックなエンドユーザがデモを提供することで、新しいタスクをロボットに教えることを可能にしている。
しかしながら、デモ参加者は一般に非専門家であるため、現代のLfD技術は準最適実証よりもはるかに優れたポリシーを作成できない。
これまで提案されたフレームワークであるSSRRは、最適下界から学ぶことに成功しているが、理想化された報酬関数を推測するためにノイズ注入軌道に依存している。
軌道生成のためのノイズ注入のようなランダムなアプローチには2つの欠点がある。
1)性能劣化は,騒音がバイタル状態に適用されるかどうかによってランダムになる可能性がある。
2) 騒音発生軌道は, 準最適性に制限があるため, 準最適性の全範囲を正確に表すことはできない。
トラジェクトリ劣化に対する系統的な代替策を検討するため,S3RRを提案する。
我々は実験的な評価を行い、S3RRは、準最適実証フレームワークからの最先端の学習に対して、基礎的真実と同等あるいはより良い報酬相関を学習できることを示した。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Improving Learning from Demonstrations by Learning from Experience [4.605233477425785]
我々は、専門家から経験から学びへスムーズに移行できるTD3fGという新しいアルゴリズムを提案する。
本アルゴリズムは,MUJOCO環境において,限定的かつ準最適な実演を行い,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-16T00:40:31Z) - Learning from Demonstration without Demonstrations [5.027571997864707]
本稿では,専門家にアクセスせずにデモンストレーションを自動的に発見する手法として,実証発見のための確率的計画法(P2D2)を提案する。
本研究では,探索問題として実演の発見を定式化し,高速探索型ランダムツリーなどの広く利用されている計画アルゴリズムを活用して,実演軌跡の探索を行う。
本手法は,古典的かつ本質的な探査RL技術よりも,古典的な制御やロボット工学のタスクに優れることを示す。
論文 参考訳(メタデータ) (2021-06-17T01:57:08Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Learning from Suboptimal Demonstration via Self-Supervised Reward
Regression [1.2891210250935146]
実証から学ぶ(LfD)は、ロボット工学の民主化を目指す。
現代のLfD技術、例えば逆強化学習(IRL)は、ユーザーが少なくとも最適なデモを提供すると仮定する。
これらの手法が誤った仮定をしており、不安定で劣化した性能に悩まされていることを示す。
本研究では,卓球におけるトップスピンストライクをロボットに教える物理的な実演を行い,ユーザの実演よりも32%,トップスピンが40%向上した。
論文 参考訳(メタデータ) (2020-10-17T04:18:04Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning rewards for robotic ultrasound scanning using probabilistic
temporal ranking [17.494224125794187]
本研究は,課題の目的が不明な逆問題を考えるとともに,実例から報酬関数を推定する必要がある。
既存の報酬推論戦略の多くは、実験の探索的な性質のため、この種の問題には適していない。
この確率的時間的ランク付けアプローチを定式化し、既存のアプローチを改善したことを示す。
論文 参考訳(メタデータ) (2020-02-04T11:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。