論文の概要: Imitation Learning in Continuous Action Spaces: Mitigating Compounding Error without Interaction
- arxiv url: http://arxiv.org/abs/2507.09061v2
- Date: Sat, 26 Jul 2025 03:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.945336
- Title: Imitation Learning in Continuous Action Spaces: Mitigating Compounding Error without Interaction
- Title(参考訳): 連続行動空間における模倣学習--相互作用のない複合誤差の軽減
- Authors: Thomas T. Zhang, Daniel Pfrommer, Nikolai Matni, Max Simchowitz,
- Abstract要約: 本研究では,連続的な状態と動作の力学系において,専門家のデモレータを模倣する問題について検討する。
連続的状態と行動の模倣学習における複合的誤りを軽減するための最小限の介入を提案する。
- 参考スコア(独自算出の注目度): 23.93098879202432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of imitating an expert demonstrator in a continuous state-and-action dynamical system. While imitation learning in discrete settings such as autoregressive language modeling has seen immense success and popularity in recent years, imitation in physical settings such as autonomous driving and robot learning has proven comparably more complex due to the compounding errors problem, often requiring elaborate set-ups to perform stably. Recent work has demonstrated that even in benign settings, exponential compounding errors are unavoidable when learning solely from expert-controlled trajectories, suggesting the need for more advanced policy parameterizations or data augmentation. To this end, we present minimal interventions that provably mitigate compounding errors in continuous state-and-action imitation learning. When the system is open-loop stable, we prescribe "action chunking," i.e., predicting and playing sequences of actions in open-loop; when the system is possibly unstable, we prescribe "noise injection," i.e., adding noise during expert demonstrations. These interventions align with popular choices in modern robot learning, though the benefits we derive are distinct from the effects they were designed to target. Our results draw insights and tools from both control theory and reinforcement learning; however, our analysis reveals novel considerations that do not naturally arise when either literature is considered in isolation.
- Abstract(参考訳): 本研究では,連続的な状態と動作の力学系において,専門家のデモレータを模倣する問題について検討する。
近年、自己回帰言語モデリングのような個別の環境での模倣学習は大きな成功と人気をみせているが、自律運転やロボット学習といった物理的な設定での模倣は、複雑なエラー問題のため、多くの場合、安定して行うために精巧なセットアップを必要とするため、相容れないほど複雑であることが証明されている。
最近の研究は、良質な設定であっても、専門家が制御する軌道のみから学習する場合、指数的合成誤差は避けられず、より高度なポリシーパラメータ化やデータ拡張の必要性が示唆されている。
この目的のために我々は,連続的状態と動作の模倣学習における複合的誤りを確実に軽減する最小限の介入を提案する。
オープンループが安定している場合、我々は「アクションチャンキング」、すなわち、オープンループにおけるアクションのシーケンスを予測および再生すること、システムが不安定である場合、「ノイズ注入」、すなわち専門家によるデモンストレーションの間にノイズを追加することを前提とします。
これらの介入は、現代のロボット学習における一般的な選択と一致しているが、私たちが引き起こす利点は、それらがターゲットとして設計された影響とは異なる。
本研究の結果は,制御理論と強化学習の両面から洞察とツールが得られたが,本研究では,いずれの文献も単独で考えると自然に発生しない新たな考察が明らかになった。
関連論文リスト
- The Pitfalls of Imitation Learning when Actions are Continuous [33.44344966171865]
本研究では,連続的な状態・動作制御システムにおいて,専門家のデモレータを模倣する問題について検討する。
指数的安定性と呼ばれる制御理論的性質を満たす力学であっても、任意の滑らかな決定論的模倣ポリシーは必ず誤りを被ることを示す。
論文 参考訳(メタデータ) (2025-03-12T18:11:37Z) - A Mathematical Model of the Hidden Feedback Loop Effect in Machine Learning Systems [44.99833362998488]
意図しない隠れフィードバックループに起因するいくつかの現象を共同で記述するために,繰り返し学習プロセスを導入する。
このような繰り返し学習設定の特徴は、環境の状態が時間とともに学習者自身に因果的に依存することである。
本稿では,繰り返し学習過程の力学系モデルを提案し,正および負のフィードバックループモードに対する確率分布の制限セットを証明した。
論文 参考訳(メタデータ) (2024-05-04T17:57:24Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z) - Social NCE: Contrastive Learning of Socially-aware Motion
Representations [87.82126838588279]
実験結果から, 提案手法は最近の軌道予測, 行動クローニング, 強化学習アルゴリズムの衝突速度を劇的に低減することがわかった。
本手法は,ニューラルネットワークの設計に関する仮定をほとんど示さないため,神経運動モデルのロバスト性を促進する汎用的手法として使用できる。
論文 参考訳(メタデータ) (2020-12-21T22:25:06Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。