論文の概要: Compressed imitation learning
- arxiv url: http://arxiv.org/abs/2009.11697v1
- Date: Fri, 18 Sep 2020 19:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:04:36.650054
- Title: Compressed imitation learning
- Title(参考訳): 圧縮模倣学習
- Authors: Nathan Zhao, Beicheng Lou
- Abstract要約: 我々は,政策の単純さ (Occam's Razor) を事前利用して,サンプル効率の良い模倣学習を実現することを提案する。
まず、状態値関数を直接サンプリングできる線形ケースにおいて、このスキームの有効性を実証した。
また,この手法を,アクションのみが見えるシナリオと,非線形ネットワークからポリシーが得られたシナリオに拡張した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In analogy to compressed sensing, which allows sample-efficient signal
reconstruction given prior knowledge of its sparsity in frequency domain, we
propose to utilize policy simplicity (Occam's Razor) as a prior to enable
sample-efficient imitation learning. We first demonstrated the feasibility of
this scheme on linear case where state-value function can be sampled directly.
We also extended the scheme to scenarios where only actions are visible and
scenarios where the policy is obtained from nonlinear network. The method is
benchmarked against behavior cloning and results in significantly higher scores
with limited expert demonstrations.
- Abstract(参考訳): 周波数領域のスパース性に関する事前知識からサンプル効率のよい信号再構成を可能にする圧縮センシングの類似性として,occamのカミソリ(policy simplicity, occam's razor)を先行として活用し,サンプル効率のよい模倣学習を可能にする。
まず, 状態値関数を直接サンプリングできる線形ケースにおいて, このスキームの実現可能性を示した。
また,アクションのみを可視化するシナリオと,非線形ネットワークからポリシーが得られたシナリオに拡張した。
この手法は行動のクローン化に対してベンチマークされ、専門家によるデモンストレーションが限定された結果、非常に高いスコアが得られる。
関連論文リスト
- Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement
Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。
本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:04:00Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。
また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文 参考訳(メタデータ) (2023-05-20T10:11:09Z) - Efficient Bayesian Policy Reuse with a Scalable Observation Model in
Deep Reinforcement Learning [9.854975702211165]
深部強化学習(DRL)におけるより効率的な政策伝達を実現するため,改良されたベイズ政策再利用(BPR)手法を提案する。
ほとんどのBPRアルゴリズムは、限られた情報を含む観察信号としてエピソードリターンを使用し、エピソードの終了まで取得できない。
我々は,より高速かつ高精度なタスク推論のための観測信号として,情報的かつ即時的な状態遷移サンプルを用いる。
論文 参考訳(メタデータ) (2022-04-16T05:55:43Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。