論文の概要: Distributionally Robust Imitation Learning: Layered Control Architecture for Certifiable Autonomy
- arxiv url: http://arxiv.org/abs/2512.17899v1
- Date: Fri, 19 Dec 2025 18:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.537489
- Title: Distributionally Robust Imitation Learning: Layered Control Architecture for Certifiable Autonomy
- Title(参考訳): 分布ロバストな模倣学習:認定自律性のための階層型制御アーキテクチャ
- Authors: Aditya Gahlawat, Ahmed Aboudonia, Sandeep Banik, Naira Hovakimyan, Nikolai Matni, Aaron D. Ames, Gioele Zardini, Alberto Speranzon,
- Abstract要約: シミュレーション学習(IL)は、専門家によるデモンストレーションから学ぶことで自律的な行動を可能にする。
本稿では,TaSIL とellonedrac を統合した層制御アーキテクチャ (LCA) を提案する。
私たちのソリューションは、完全に証明可能な自律パイプラインを設計するための道を開くものです。
- 参考スコア(独自算出の注目度): 24.387204607890578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) enables autonomous behavior by learning from expert demonstrations. While more sample-efficient than comparative alternatives like reinforcement learning, IL is sensitive to compounding errors induced by distribution shifts. There are two significant sources of distribution shifts when using IL-based feedback laws on systems: distribution shifts caused by policy error and distribution shifts due to exogenous disturbances and endogenous model errors due to lack of learning. Our previously developed approaches, Taylor Series Imitation Learning (TaSIL) and $\mathcal{L}_1$ -Distributionally Robust Adaptive Control (\ellonedrac), address the challenge of distribution shifts in complementary ways. While TaSIL offers robustness against policy error-induced distribution shifts, \ellonedrac offers robustness against distribution shifts due to aleatoric and epistemic uncertainties. To enable certifiable IL for learned and/or uncertain dynamical systems, we formulate \textit{Distributionally Robust Imitation Policy (DRIP)} architecture, a Layered Control Architecture (LCA) that integrates TaSIL and~\ellonedrac. By judiciously designing individual layer-centric input and output requirements, we show how we can guarantee certificates for the entire control pipeline. Our solution paves the path for designing fully certifiable autonomy pipelines, by integrating learning-based components, such as perception, with certifiable model-based decision-making through the proposed LCA approach.
- Abstract(参考訳): シミュレーション学習(IL)は、専門家によるデモンストレーションから学ぶことで自律的な行動を可能にする。
強化学習のような相対的な代替よりもサンプル効率が高いが、ILは分布シフトによって引き起こされる複雑なエラーに敏感である。
システム上のILベースのフィードバック法則を使用する場合の分布シフトには,外因性障害によるポリシエラーや分布シフトによる分布シフトと,学習不足による内因性モデルエラーの2つの重要な原因がある。
これまで開発されたTaylor Series Imitation Learning (TaSIL) と $\mathcal{L}_1$ -Distributionally Robust Adaptive Control (\ellonedrac) は、相補的な方法での分散シフトの課題に対処する。
TaSILは、ポリシーエラーによって引き起こされる分布シフトに対して堅牢性を提供するが、Shaellonedracは、アレタリックおよびてんかんの不確実性による分布シフトに対して堅牢性を提供する。
TaSILと~\ellonedracを統合した層制御アーキテクチャであるDRIPアーキテクチャを定式化する。
個々のレイヤ中心の入力および出力要求を司法的に設計することで、コントロールパイプライン全体の認証を保証できることを示す。
我々のソリューションは、認識などの学習ベースのコンポーネントをLCAアプローチを通じて、モデルベースの意思決定と統合することで、完全に証明可能な自律パイプラインを設計するための道を開く。
関連論文リスト
- Balance Equation-based Distributionally Robust Offline Imitation Learning [8.607736795429638]
イミテーション・ラーニング(IL)は、報酬関数や明示的なコントローラを手動で設計するロボットや制御タスクに非常に効果的であることが証明されている。
標準のILメソッドは、トレーニングとデプロイメントの間に環境のダイナミクスが固定されていると暗黙的に仮定します。
バランス方程式に基づく分散ロバストオフライン学習を通じてこの問題に対処する。
不確実な遷移モデルの集合に対する分布論的にロバストな最適化としてこの問題を定式化し、最悪の遷移分布の下での模倣損失を最小限に抑える政策を求める。
論文 参考訳(メタデータ) (2025-11-11T07:48:09Z) - Distributionally Robust Federated Learning with Outlier Resilience [8.69285602685459]
本研究では, 分散的頑健なフェデレーション学習について, 明確な外部レジリエンスを用いて検討した。
我々は、ロバスト性証明を許容するトラクタブルなラグランジアンペナルティ最適化として問題を再構築する。
この改革に基づいて,分散外乱フェデレーション学習アルゴリズムを提案し,その収束保証を確立する。
論文 参考訳(メタデータ) (2025-09-29T08:42:12Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Lyapunov Density Models: Constraining Distribution Shift in
Learning-Based Control [64.61499213110334]
我々はエージェントを訓練された状態や行動に制約するメカニズムを模索する。
制御理論において、リャプノフ安定性と制御不変集合は、コントローラについて保証することを可能にする。
密度モデルによって トレーニングデータの分布を推定できます
論文 参考訳(メタデータ) (2022-06-21T16:49:09Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。