論文の概要: Causal Imitation Learning under Temporally Correlated Noise
- arxiv url: http://arxiv.org/abs/2202.01312v1
- Date: Wed, 2 Feb 2022 22:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-05 05:08:00.508166
- Title: Causal Imitation Learning under Temporally Correlated Noise
- Title(参考訳): 時間相関雑音下における因果模倣学習
- Authors: Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu
- Abstract要約: 我々は,専門家行動における時間的相関ノイズによって劣化したポリシーデータから模倣学習を行うアルゴリズムを開発した。
特に,シミュレータへのアクセスを利用可能な生成モデルフレーバー(DoubIL)と,完全にオフラインで実行できるゲーム理論フレーバー(ResiduIL)の2つの手法を提案する。
- 参考スコア(独自算出の注目度): 39.4969161422156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We develop algorithms for imitation learning from policy data that was
corrupted by temporally correlated noise in expert actions. When noise affects
multiple timesteps of recorded data, it can manifest as spurious correlations
between states and actions that a learner might latch on to, leading to poor
policy performance. To break up these spurious correlations, we apply modern
variants of the instrumental variable regression (IVR) technique of
econometrics, enabling us to recover the underlying policy without requiring
access to an interactive expert. In particular, we present two techniques, one
of a generative-modeling flavor (DoubIL) that can utilize access to a
simulator, and one of a game-theoretic flavor (ResiduIL) that can be run
entirely offline. We find both of our algorithms compare favorably to
behavioral cloning on simulated control tasks.
- Abstract(参考訳): 専門家行動における時間的相関雑音によって損なわれた政策データから模倣学習を行うアルゴリズムを開発した。
ノイズが記録されたデータの複数の時間ステップに影響を及ぼすと、学習者がラッチする可能性のある状態と行動の間のスプリアス相関として現れ、政策パフォーマンスが低下する。
これらのスプリアス相関を分割するために、econometricsのインストゥルメンタル変数回帰(ivr)手法の現代的な変種を適用し、インタラクティブな専門家にアクセスすることなく、基盤となるポリシーを復元できる。
特に,シミュレータへのアクセスを利用可能な生成モデルフレーバー(DoubIL)と,完全にオフラインで実行できるゲーム理論フレーバー(ResiduIL)の2つの手法を提案する。
両アルゴリズムは, シミュレーション制御タスクにおける行動クローニングと良好に比較できる。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-03-20T17:28:17Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Perlin Noise Improve Adversarial Robustness [9.084544535198509]
敵対的な例は、ディープニューラルネットワークの出力を摂動できる特別な入力である。
逆例を生成する方法の多くは勾配情報を必要とする。
手続き的雑音対向例は、新しい対向例生成方法である。
論文 参考訳(メタデータ) (2021-12-26T15:58:28Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - DYNOTEARS: Structure Learning from Time-Series Data [6.7638850283606855]
時系列における変数間の同時(イントラスライス)と時間差(インタースライス)を同時に推定する手法を提案する。
動的ベイズネットワークを学習するための最先端の手法と比較して,本手法は実データに対してスケーラブルかつ正確である。
論文 参考訳(メタデータ) (2020-02-02T21:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。