論文の概要: Action Chunking and Exploratory Data Collection Yield Exponential Improvements in Behavior Cloning for Continuous Control
- arxiv url: http://arxiv.org/abs/2507.09061v4
- Date: Mon, 03 Nov 2025 23:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.367247
- Title: Action Chunking and Exploratory Data Collection Yield Exponential Improvements in Behavior Cloning for Continuous Control
- Title(参考訳): 連続制御のための行動クローニングにおける行動チャンキングと探索データ収集の指数的改善
- Authors: Thomas T. Zhang, Daniel Pfrommer, Chaoyi Pan, Nikolai Matni, Max Simchowitz,
- Abstract要約: オープンループにおける行動列の予測と,専門家による実証実験の探索的拡張について検討した。
本研究は,制御理論的安定性をこれらの介入の利点の根底にある重要なメカニズムとして同定した。
理論面では、制御理論レンズが複合誤差の発生に関する詳細な知見を提供することを示した。
- 参考スコア(独自算出の注目度): 24.901172157291096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a theoretical analysis of two of the most impactful interventions in modern learning from demonstration in robotics and continuous control: the practice of action-chunking (predicting sequences of actions in open-loop) and exploratory augmentation of expert demonstrations. Though recent results show that learning from demonstration, also known as imitation learning (IL), can suffer errors that compound exponentially with task horizon in continuous settings, we demonstrate that action chunking and exploratory data collection circumvent exponential compounding errors in different regimes. Our results identify control-theoretic stability as the key mechanism underlying the benefits of these interventions. On the empirical side, we validate our predictions and the role of control-theoretic stability through experimentation on popular robot learning benchmarks. On the theoretical side, we demonstrate that the control-theoretic lens provides fine-grained insights into how compounding error arises, leading to tighter statistical guarantees on imitation learning error when these interventions are applied than previous techniques based on information-theoretic considerations alone.
- Abstract(参考訳): 本稿では,ロボット工学と連続制御の実証から学ぶ現代学習における2つの最も影響力のある介入について理論的解析を行った。
近年の研究では、実演からの学習は、反復学習(IL)としても知られており、連続した環境下でタスクの水平線と指数関数的に重なり合うエラーを被る可能性があるが、アクションチャンキングと探索データ収集は、異なる状況下で指数関数的な複合的エラーを回避できることを示した。
本研究は,制御理論の安定性をこれらの介入の利点の根底にある重要なメカニズムとして同定した。
実験的な側面から,一般的なロボット学習ベンチマーク実験による予測と制御理論的安定性の役割を検証した。
理論的には、制御理論レンズは、複合的誤りの発生に関する詳細な知見を提供し、これらの介入が情報理論のみに基づく従来の手法よりも適用された場合、模倣学習誤差に関する統計的保証がより厳密になることを示した。
関連論文リスト
- Test-Time Learning of Causal Structure from Interventional Data [50.06913286558919]
共同因果推論を用いたテスト時間トレーニングを併用する新しい手法であるTICL(Test-Time Interventional Causal Learning)を提案する。
具体的には、テスト時にインスタンス固有のトレーニングデータを生成するための自己拡張戦略を設計し、分散シフトを効果的に回避する。
共同因果推論を統合することで,PCにインスパイアされた2相教師付き学習手法を開発し,理論的識別性を確保しつつ,自己拡張学習データを有効に活用した。
論文 参考訳(メタデータ) (2026-02-22T11:23:05Z) - Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering [22.666436755894328]
大規模言語モデル(LLM)は、推論時にプロンプト(コンテキスト内学習)と内部アクティベーション(アクティベーションステアリング)を通じて制御できる。
この研究は、LCM行動の即時およびアクティベーションに基づく制御の統一的な説明と、これらの介入の効果を実証的に予測するための方法論を提供する。
論文 参考訳(メタデータ) (2025-11-01T16:46:03Z) - An Augmentation-Aware Theory for Self-Supervised Contrastive Learning [25.01234368914713]
本稿では,自己教師付きコントラスト学習のための拡張型エラー境界を提案する。
教師付きリスクは、教師なしリスクだけでなく、データ拡張によって引き起こされるトレードオフによっても拘束されていることを示す。
論文 参考訳(メタデータ) (2025-05-28T10:18:20Z) - The Pitfalls of Imitation Learning when Actions are Continuous [33.44344966171865]
本研究では,連続的な状態・動作制御システムにおいて,専門家のデモレータを模倣する問題について検討する。
指数的安定性と呼ばれる制御理論的性質を満たす力学であっても、任意の滑らかな決定論的模倣ポリシーは必ず誤りを被ることを示す。
論文 参考訳(メタデータ) (2025-03-12T18:11:37Z) - ACTIVA: Amortized Causal Effect Estimation via Transformer-based Variational Autoencoder [7.987204219322316]
本稿では,アモータライズされた因果推論のための条件付き変分自動エンコーダアーキテクチャであるACTIVAを提案する。
ACTIVAは、観測入力と介入クエリに条件づけられた潜伏表現を学習し、ゼロショット推論を可能にする。
我々は、ACTIVAが観察的に等価な因果モデルよりも混合として介入分布を予測することを示す理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-03-03T08:28:25Z) - Logarithmic Regret for Nonlinear Control [5.473636587010879]
逐次的相互作用を通じて未知の非線形力学系を制御する学習の課題に対処する。
ミスが破滅的に起こりうる高スループットアプリケーションに動機付けられ,高速な逐次学習が可能となる状況について検討する。
論文 参考訳(メタデータ) (2025-01-17T15:42:42Z) - Counterfactual Generative Modeling with Variational Causal Inference [1.9287470458589586]
本稿では, 逆ファクト生成モデリングタスクを扱うための変分ベイズ因果推論フレームワークを提案する。
実験では, 反ファクト生成モデルにおける最先端モデルと比較して, フレームワークの利点を実証する。
論文 参考訳(メタデータ) (2024-10-16T16:44:12Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - A Mathematical Model of the Hidden Feedback Loop Effect in Machine Learning Systems [44.99833362998488]
意図しない隠れフィードバックループに起因するいくつかの現象を共同で記述するために,繰り返し学習プロセスを導入する。
このような繰り返し学習設定の特徴は、環境の状態が時間とともに学習者自身に因果的に依存することである。
本稿では,繰り返し学習過程の力学系モデルを提案し,正および負のフィードバックループモードに対する確率分布の制限セットを証明した。
論文 参考訳(メタデータ) (2024-05-04T17:57:24Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [58.05402364136958]
実験と観測を組み合わせた二重機械学習手法を提案する。
本フレームワークは, より軽度な仮定の下で, 外部の妥当性と無知性に対するファルシフィケーションテストを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z) - Social NCE: Contrastive Learning of Socially-aware Motion
Representations [87.82126838588279]
実験結果から, 提案手法は最近の軌道予測, 行動クローニング, 強化学習アルゴリズムの衝突速度を劇的に低減することがわかった。
本手法は,ニューラルネットワークの設計に関する仮定をほとんど示さないため,神経運動モデルのロバスト性を促進する汎用的手法として使用できる。
論文 参考訳(メタデータ) (2020-12-21T22:25:06Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Estimating the Effects of Continuous-valued Interventions using
Generative Adversarial Networks [103.14809802212535]
我々は,連続的評価介入の効果を推定する問題に対処するため,GAN(Generative Adversarial Network)フレームワークを構築した。
我々のモデルであるSCIGANは柔軟であり、いくつかの異なる継続的な介入に対する対実的な結果の同時推定が可能である。
継続的な介入に移行することによって生じる課題に対処するために、差別者のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T18:46:21Z) - Metric-Based Imitation Learning Between Two Dissimilar Anthropomorphic
Robotic Arms [29.08134072341867]
模倣学習における大きな課題の1つは、対応問題である。
異種エンボディメント間の距離測定を導入する。
この尺度は, 実施形態の類似性を記述し, 遠隔操作による模倣政策の学習に適していることが判明した。
論文 参考訳(メタデータ) (2020-02-25T19:47:19Z) - Nonparametric inference for interventional effects with multiple
mediators [0.0]
より柔軟で、おそらく機械学習に基づく推定技術を可能にする理論を提供する。
提案した推定器の複数のロバスト性特性を示す。
本研究は, 介入媒介効果の推定において, 最新の統計的学習手法を活用する手段を提供する。
論文 参考訳(メタデータ) (2020-01-16T19:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。