論文の概要: Imitating Complex Trajectories: Bridging Low-Level Stability and
High-Level Behavior
- arxiv url: http://arxiv.org/abs/2307.14619v3
- Date: Mon, 25 Sep 2023 02:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:40:39.120089
- Title: Imitating Complex Trajectories: Bridging Low-Level Stability and
High-Level Behavior
- Title(参考訳): 放射状複素軌道:低レベル安定性と高レベル挙動
- Authors: Adam Block, Daniel Pfrommer, Max Simchowitz
- Abstract要約: 我々は,行動クローニング,非マルコフ的,潜在的に多モードな専門家による実証の理論的枠組みを提案する。
我々のフレームワークは、専門家によるデモンストレーションに関する模倣を安定化するために、低レベルのコントローラを起動する。
- 参考スコア(独自算出の注目度): 28.388286574023613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a theoretical framework for studying behavior cloning stochastic,
non-Markovian, potentially multi-modal (i.e. ``complex" ) expert demonstrations
in nonlinear dynamical systems. Our framework invokes low-level controllers -
either learned or implicit in position-command control - to stabilize imitation
around expert demonstrations. We show that with (a) a suitable low-level
stability guarantee and (b) a stochastic continuity property of the learned
policy we call ``total variation continuity" (TVC), an imitator that accurately
estimates actions on the demonstrator's state distribution closely matches the
demonstrator's distribution over entire trajectories. We then show that TVC can
be ensured with minimal degradation of accuracy by combining a popular
data-augmentation regimen with a novel algorithmic trick: adding augmentation
noise at execution time. We instantiate our guarantees for policies
parameterized by diffusion models and prove that if the learner accurately
estimates the score of the (noise-augmented) expert policy, then the
distribution of imitator trajectories is close to the demonstrator distribution
in a natural optimal transport distance. Our analysis constructs intricate
couplings between noise-augmented trajectories, a technique that may be of
independent interest. We conclude by empirically validating our algorithmic
recommendations.
- Abstract(参考訳): 非線形力学系における確率的,非マルコフ的,潜在的マルチモーダル(例えば ``complex' )の専門家による実演に関する理論的枠組みを提案する。
我々のフレームワークは、専門家によるデモンストレーションの模倣を安定化させるために、低レベルのコントローラーセイザーが学習され、あるいは暗黙的に位置コマンド制御を行う。
私たちはそれを示します
a) 適切な低レベルの安定保証及び
b) "total variation continuity" (tvc) と呼ばれる学習された方針の確率的連続性特性は,演者の状態分布に対する行動を正確に推定する模倣者であり,演者全体の分布と密接に一致する。
次に、一般的なデータ拡張レジームと新しいアルゴリズムのトリックを組み合わせることで、TVCが最小限の精度の劣化で確保できることを示し、実行時に拡張ノイズを追加する。
拡散モデルによりパラメータ化されたポリシーの保証をインスタンス化し、学習者が(雑音増大した)エキスパートポリシーのスコアを正確に推定した場合、擬似軌道の分布は自然の最適輸送距離における演者分布に近くなることを示す。
提案手法は,無関心な手法である雑音提示トラジェクタ間の複雑なカップリングを構成する。
アルゴリズムによる推薦を実証的に検証することで結論づける。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Robust Imitation Learning from Corrupted Demonstrations [15.872598211059403]
一定の数のデータがノイズあるいは任意の外れ値となるような、破損したデモからオフラインのImitation Learningを考える。
本稿では,ポリシーの正確な推定を保証するMOM(Median-of-Means)目標を最小化する,新しいロバストなアルゴリズムを提案する。
連続制御ベンチマーク実験により,提案手法が予測されたロバスト性および有効性を示すことを確認した。
論文 参考訳(メタデータ) (2022-01-29T14:21:28Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。