論文の概要: Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior
- arxiv url: http://arxiv.org/abs/2307.14619v5
- Date: Tue, 24 Oct 2023 17:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:07:13.661399
- Title: Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior
- Title(参考訳): 生成的行動クローニングのための証明可能保証--低レベル安定性と高レベル行動の橋渡し
- Authors: Adam Block, Ali Jadbabaie, Daniel Pfrommer, Max Simchowitz, Russ
Tedrake
- Abstract要約: 生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
- 参考スコア(独自算出の注目度): 51.60683890503293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a theoretical framework for studying behavior cloning of complex
expert demonstrations using generative modeling. Our framework invokes
low-level controllers - either learned or implicit in position-command control
- to stabilize imitation around expert demonstrations. We show that with (a) a
suitable low-level stability guarantee and (b) a powerful enough generative
model as our imitation learner, pure supervised behavior cloning can generate
trajectories matching the per-time step distribution of essentially arbitrary
expert trajectories in an optimal transport cost. Our analysis relies on a
stochastic continuity property of the learned policy we call "total variation
continuity" (TVC). We then show that TVC can be ensured with minimal
degradation of accuracy by combining a popular data-augmentation regimen with a
novel algorithmic trick: adding augmentation noise at execution time. We
instantiate our guarantees for policies parameterized by diffusion models and
prove that if the learner accurately estimates the score of the
(noise-augmented) expert policy, then the distribution of imitator trajectories
is close to the demonstrator distribution in a natural optimal transport
distance. Our analysis constructs intricate couplings between noise-augmented
trajectories, a technique that may be of independent interest. We conclude by
empirically validating our algorithmic recommendations, and discussing
implications for future research directions for better behavior cloning with
generative modeling.
- Abstract(参考訳): 生成モデルを用いた複雑な専門家による実験の行動クローニングに関する理論的枠組みを提案する。
我々のフレームワークは、専門家によるデモンストレーションの模倣を安定化させるために、低レベルのコントローラ(位置命令制御の学習または暗黙)を呼び出す。
私たちはそれを示します
a) 適切な低レベルの安定保証及び
b) 擬似学習者として十分強力な生成モデルである純粋教師付き行動クローニングは, 基本的に任意の専門的軌跡の時間毎のステップ分布を最適な輸送コストで生成することができる。
我々の分析は、学習方針の確率的連続性(英語版)(total variation continuity、TVC)に依存している。
次に、一般的なデータ拡張レジームと新しいアルゴリズムのトリックを組み合わせることで、TVCが最小限の精度の劣化で確保できることを示し、実行時に拡張ノイズを追加する。
拡散モデルによりパラメータ化されたポリシーの保証をインスタンス化し、学習者が(雑音増大した)エキスパートポリシーのスコアを正確に推定した場合、擬似軌道の分布は自然の最適輸送距離における演者分布に近くなることを示す。
提案手法は,無関心な手法である雑音提示トラジェクタ間の複雑なカップリングを構成する。
本稿では,アルゴリズムの推薦を実証的に検証し,生成モデルによる行動クローニングの改善に向けた今後の研究の方向性について論じる。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Robust Imitation Learning from Corrupted Demonstrations [15.872598211059403]
一定の数のデータがノイズあるいは任意の外れ値となるような、破損したデモからオフラインのImitation Learningを考える。
本稿では,ポリシーの正確な推定を保証するMOM(Median-of-Means)目標を最小化する,新しいロバストなアルゴリズムを提案する。
連続制御ベンチマーク実験により,提案手法が予測されたロバスト性および有効性を示すことを確認した。
論文 参考訳(メタデータ) (2022-01-29T14:21:28Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。