論文の概要: Action Chunking and Exploratory Data Collection Yield Exponential Improvements in Behavior Cloning for Continuous Control
- arxiv url: http://arxiv.org/abs/2507.09061v4
- Date: Mon, 03 Nov 2025 23:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.367247
- Title: Action Chunking and Exploratory Data Collection Yield Exponential Improvements in Behavior Cloning for Continuous Control
- Title(参考訳): 連続制御のための行動クローニングにおける行動チャンキングと探索データ収集の指数的改善
- Authors: Thomas T. Zhang, Daniel Pfrommer, Chaoyi Pan, Nikolai Matni, Max Simchowitz,
- Abstract要約: オープンループにおける行動列の予測と,専門家による実証実験の探索的拡張について検討した。
本研究は,制御理論的安定性をこれらの介入の利点の根底にある重要なメカニズムとして同定した。
理論面では、制御理論レンズが複合誤差の発生に関する詳細な知見を提供することを示した。
- 参考スコア(独自算出の注目度): 24.901172157291096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a theoretical analysis of two of the most impactful interventions in modern learning from demonstration in robotics and continuous control: the practice of action-chunking (predicting sequences of actions in open-loop) and exploratory augmentation of expert demonstrations. Though recent results show that learning from demonstration, also known as imitation learning (IL), can suffer errors that compound exponentially with task horizon in continuous settings, we demonstrate that action chunking and exploratory data collection circumvent exponential compounding errors in different regimes. Our results identify control-theoretic stability as the key mechanism underlying the benefits of these interventions. On the empirical side, we validate our predictions and the role of control-theoretic stability through experimentation on popular robot learning benchmarks. On the theoretical side, we demonstrate that the control-theoretic lens provides fine-grained insights into how compounding error arises, leading to tighter statistical guarantees on imitation learning error when these interventions are applied than previous techniques based on information-theoretic considerations alone.
- Abstract(参考訳): 本稿では,ロボット工学と連続制御の実証から学ぶ現代学習における2つの最も影響力のある介入について理論的解析を行った。
近年の研究では、実演からの学習は、反復学習(IL)としても知られており、連続した環境下でタスクの水平線と指数関数的に重なり合うエラーを被る可能性があるが、アクションチャンキングと探索データ収集は、異なる状況下で指数関数的な複合的エラーを回避できることを示した。
本研究は,制御理論の安定性をこれらの介入の利点の根底にある重要なメカニズムとして同定した。
実験的な側面から,一般的なロボット学習ベンチマーク実験による予測と制御理論的安定性の役割を検証した。
理論的には、制御理論レンズは、複合的誤りの発生に関する詳細な知見を提供し、これらの介入が情報理論のみに基づく従来の手法よりも適用された場合、模倣学習誤差に関する統計的保証がより厳密になることを示した。
関連論文リスト
- The Pitfalls of Imitation Learning when Actions are Continuous [33.44344966171865]
本研究では,連続的な状態・動作制御システムにおいて,専門家のデモレータを模倣する問題について検討する。
指数的安定性と呼ばれる制御理論的性質を満たす力学であっても、任意の滑らかな決定論的模倣ポリシーは必ず誤りを被ることを示す。
論文 参考訳(メタデータ) (2025-03-12T18:11:37Z) - Logarithmic Regret for Nonlinear Control [5.473636587010879]
逐次的相互作用を通じて未知の非線形力学系を制御する学習の課題に対処する。
ミスが破滅的に起こりうる高スループットアプリケーションに動機付けられ,高速な逐次学習が可能となる状況について検討する。
論文 参考訳(メタデータ) (2025-01-17T15:42:42Z) - A Mathematical Model of the Hidden Feedback Loop Effect in Machine Learning Systems [44.99833362998488]
意図しない隠れフィードバックループに起因するいくつかの現象を共同で記述するために,繰り返し学習プロセスを導入する。
このような繰り返し学習設定の特徴は、環境の状態が時間とともに学習者自身に因果的に依存することである。
本稿では,繰り返し学習過程の力学系モデルを提案し,正および負のフィードバックループモードに対する確率分布の制限セットを証明した。
論文 参考訳(メタデータ) (2024-05-04T17:57:24Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z) - Social NCE: Contrastive Learning of Socially-aware Motion
Representations [87.82126838588279]
実験結果から, 提案手法は最近の軌道予測, 行動クローニング, 強化学習アルゴリズムの衝突速度を劇的に低減することがわかった。
本手法は,ニューラルネットワークの設計に関する仮定をほとんど示さないため,神経運動モデルのロバスト性を促進する汎用的手法として使用できる。
論文 参考訳(メタデータ) (2020-12-21T22:25:06Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Metric-Based Imitation Learning Between Two Dissimilar Anthropomorphic
Robotic Arms [29.08134072341867]
模倣学習における大きな課題の1つは、対応問題である。
異種エンボディメント間の距離測定を導入する。
この尺度は, 実施形態の類似性を記述し, 遠隔操作による模倣政策の学習に適していることが判明した。
論文 参考訳(メタデータ) (2020-02-25T19:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。