論文の概要: A Model-Based Approach to Imitation Learning through Multi-Step Predictions
- arxiv url: http://arxiv.org/abs/2504.13413v1
- Date: Fri, 18 Apr 2025 02:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:40:59.323766
- Title: A Model-Based Approach to Imitation Learning through Multi-Step Predictions
- Title(参考訳): 多段階予測による模倣学習へのモデルベースアプローチ
- Authors: Haldun Balim, Yang Hu, Yuyang Zhang, Na Li,
- Abstract要約: モデル予測制御に着想を得たモデルベース模倣学習フレームワークを提案する。
本手法は,従来のクローン型数値ベンチマークよりも優れる。
提案手法の複雑さと誤差境界について理論的に保証し,その収束特性について考察する。
- 参考スコア(独自算出の注目度): 8.888213496593556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is a widely used approach for training agents to replicate expert behavior in complex decision-making tasks. However, existing methods often struggle with compounding errors and limited generalization, due to the inherent challenge of error correction and the distribution shift between training and deployment. In this paper, we present a novel model-based imitation learning framework inspired by model predictive control, which addresses these limitations by integrating predictive modeling through multi-step state predictions. Our method outperforms traditional behavior cloning numerical benchmarks, demonstrating superior robustness to distribution shift and measurement noise both in available data and during execution. Furthermore, we provide theoretical guarantees on the sample complexity and error bounds of our method, offering insights into its convergence properties.
- Abstract(参考訳): 模倣学習は、複雑な意思決定タスクで専門家の行動を再現する訓練エージェントに広く使われているアプローチである。
しかし、既存の手法は、エラー修正の固有の課題と、トレーニングとデプロイメントの間の分散シフトのために、複雑なエラーと限定的な一般化に苦慮することが多い。
本稿では,モデル予測制御に着想を得たモデルベース模倣学習フレームワークを提案する。
提案手法は従来の行動クローン数値ベンチマークより優れており, 利用可能なデータと実行時の両方において, 分散シフトや測定ノイズに優れた頑健性を示す。
さらに,本手法の複雑さと誤差境界について理論的に保証し,収束特性について考察する。
関連論文リスト
- Learning with Imperfect Models: When Multi-step Prediction Mitigates Compounding Error [25.387541996071093]
小さな予測ミスが時間の経過とともに蓄積される複合的エラーは、学習ベースの制御において大きな課題となる。
複合化エラーを軽減する1つのアプローチは、シングルステップモデルの自己回帰ロールアウトに頼るのではなく、マルチステップ予測を直接訓練することである。
モデルクラスが適切に特定され,システムダイナミクスを正確に捉えている場合,単一ステップモデルの方が予測誤差が低いことを示す。
一方、モデルクラスが部分可観測性のために不特定である場合、直接多段階予測器はバイアスを著しく低減し、単一ステップのアプローチより優れている。
論文 参考訳(メタデータ) (2025-04-02T14:18:52Z) - Imitation Learning from Observations: An Autoregressive Mixture of Experts Approach [2.4427666827706074]
本稿では,観察から得られた模倣学習の新たなアプローチとして,専門家モデルの自己回帰混合を,その基礎となる方針に適合させる手法を提案する。
提案手法の有効性を,人間の実演から収集した2つの自律走行データセットを用いて検証した。
論文 参考訳(メタデータ) (2024-11-12T22:56:28Z) - Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Enhancing Fairness and Performance in Machine Learning Models: A Multi-Task Learning Approach with Monte-Carlo Dropout and Pareto Optimality [1.5498930424110338]
本研究では,モデル不確実性を利用した機械学習におけるバイアス軽減手法を提案する。
提案手法では,モンテカルロ・ドロップアウト(MC)と組み合わせたマルチタスク学習(MTL)フレームワークを用いて,保護ラベルに関連する予測の不確実性を評価・緩和する。
論文 参考訳(メタデータ) (2024-04-12T04:17:50Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Predictive machine learning for prescriptive applications: a coupled
training-validating approach [77.34726150561087]
規範的応用のための予測機械学習モデルをトレーニングするための新しい手法を提案する。
このアプローチは、標準的なトレーニング検証テストスキームの検証ステップを微調整することに基づいている。
合成データを用いたいくつかの実験は、決定論的モデルと実モデルの両方において処方料コストを削減できる有望な結果を示した。
論文 参考訳(メタデータ) (2021-10-22T15:03:20Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。