Fugu-MT 論文翻訳(概要): The Pitfalls of Imitation Learning when Actions are Continuous

論文の概要: The Pitfalls of Imitation Learning when Actions are Continuous

arxiv url: http://arxiv.org/abs/2503.09722v1
Date: Wed, 12 Mar 2025 18:11:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.377178
Title: The Pitfalls of Imitation Learning when Actions are Continuous
Title（参考訳）: 行動継続時の模倣学習の落とし穴
Authors: Max Simchowitz, Daniel Pfrommer, Ali Jadbabaie,
Abstract要約: 本研究では,連続的な状態・動作制御システムにおいて,専門家のデモレータを模倣する問題について検討する。ダイナミクスが安定していても、スムーズで決定論的な模倣ポリシーは、指数関数的に大きい実行時に必ずエラーを被ることを示す。
参考スコア（独自算出の注目度）: 33.44344966171865
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of imitating an expert demonstrator in a discrete-time, continuous state-and-action control system. We show that, even if the dynamics are stable (i.e. contracting exponentially quickly), and the expert is smooth and deterministic, any smooth, deterministic imitator policy necessarily suffers error on execution that is exponentially larger, as a function of problem horizon, than the error under the distribution of expert training data. Our negative result applies to both behavior cloning and offline-RL algorithms, unless they produce highly "improper" imitator policies--those which are non-smooth, non-Markovian, or which exhibit highly state-dependent stochasticity--or unless the expert trajectory distribution is sufficiently "spread." We provide experimental evidence of the benefits of these more complex policy parameterizations, explicating the benefits of today's popular policy parameterizations in robot learning (e.g. action-chunking and Diffusion Policies). We also establish a host of complementary negative and positive results for imitation in control systems.
Abstract（参考訳）: 本研究では,離散的かつ連続的な状態・動作制御システムにおいて,専門家のデモレータを模倣する問題について検討する。力学が安定していても(即ち指数関数的に速く収縮する)、専門家が滑らかで決定論的であるとしても、スムーズで決定論的な模倣ポリシーは必ずしも、専門家のトレーニングデータ分布の誤差よりも指数関数的に大きい実行においてエラーを被る。我々の負の結果は、行動クローニングとオフラインRLアルゴリズムの両方に適用され、非滑らかで非マルコフ的、あるいは高度に状態依存的な確率性を示すような「不適切な」模倣ポリシーを生成さない限り、あるいは、専門家の軌道分布が十分に「スプレッド」でない限りである。本稿では,これらより複雑なポリシーパラメータ化の利点を実験的に証明し,ロボット学習における今日の一般的なポリシーパラメータ化(アクションチャンキングや拡散ポリシーなど)の利点を解明する。また、制御系における模倣に対して、相補的な負および正の結果のホストを確立する。

関連論文リスト

Imitation Learning in Continuous Action Spaces: Mitigating Compounding Error without Interaction [23.93098879202432]
本研究では,連続的な状態と動作の力学系において,専門家のデモレータを模倣する問題について検討する。連続的状態と行動の模倣学習における複合的誤りを軽減するための最小限の介入を提案する。
論文参考訳（メタデータ） (2025-07-11T22:36:39Z)
Data-Driven Exploration for a Class of Continuous-Time Indefinite Linear--Quadratic Reinforcement Learning Problems [6.859965454961918]
本研究では,LQ制御問題に対する強化学習について検討する。本稿では, モデルフリーでデータ駆動型探索機構を提案し, 批判者によるエントロピー正規化を適応的に調整する。本手法は,LQ問題のクラスにおいて,最もよく知られたモデルフリーな結果と一致するサブ線形後悔境界を実現する。
論文参考訳（メタデータ） (2025-07-01T01:09:06Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
SAFE-GIL: SAFEty Guided Imitation Learning for Robotic Systems [15.782203322922017]
安全に配慮した行動クローニングポリシーを学習するための設計時手法であるSAFE-GILを提案する。我々は,データ収集中にシステム内の敵対的障害を注入し,専門家を安全クリティカルな状態へ誘導する。この障害注入は、システムがテスト時に遭遇する可能性のある潜在的なポリシーエラーをシミュレートする。
論文参考訳（メタデータ） (2024-04-08T07:25:25Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文参考訳（メタデータ） (2023-09-18T18:05:35Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。この探索-探索トレードオフはエントロピー正則化の強さによって決定される。どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文参考訳（メタデータ） (2022-08-08T23:36:40Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文参考訳（メタデータ） (2021-09-16T00:08:50Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文参考訳（メタデータ） (2020-03-16T16:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。