論文の概要: Learning When to Stop: Selective Imitation Learning Under Arbitrary Dynamics Shift
- arxiv url: http://arxiv.org/abs/2605.09183v2
- Date: Sat, 16 May 2026 18:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.230848
- Title: Learning When to Stop: Selective Imitation Learning Under Arbitrary Dynamics Shift
- Title(参考訳): 停止すべきタイミングを学習する:任意ダイナミクスシフトによる選択的模倣学習
- Authors: Surbhi Goel, Jonathan Pei, James Wang,
- Abstract要約: 振る舞いのクローン化は、トレーニングとテスト環境が同じダイナミクスを共有するときに、強力な模倣学習を保証する。
多くのデプロイメント環境では、テスト環境の遷移はトレーニングとは異なる。
これは選択的な模倣の研究を動機付けており、学習者は確実に行動できないときに停止することを選択できる。
- 参考スコア(独自算出の注目度): 15.576538384279708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior cloning provides strong imitation learning guarantees when training and test environments share the same dynamics. However, in many deployment settings the test environment's transitions differ from training, and classical offline IL offers no recourse: the learner must commit to an action at every state, even when its demonstrations are uninformative and could lead to arbitrary degradation of performance. This motivates the study of selective imitation, where the learner may choose to stop when it cannot act reliably. We introduce a model for selective imitation under arbitrary dynamics shift: given labeled expert demonstrations from a training environment and unlabeled state trajectories from the same expert in a test environment, the learner outputs a selective policy that is complete (rarely stops in training) and sound (incurs low regret before stopping in test). Our algorithm, SeqRejectron, constructs a stopping rule using a small set of validator policies whose size is independent of the horizon or policy class. For deterministic policies, this yields horizon-free $\tilde{O}(\log|Π|/ε^2)$ sample complexity, assuming sparse costs. For stochastic policies, we obtain analogous horizon-free guarantees using a cumulative Hellinger stopping time. We extend the framework to misspecified experts and different expert policies across train and test and obtain results that gracefully degrade with the amount of misspecification.
- Abstract(参考訳): 振る舞いのクローン化は、トレーニングとテスト環境が同じダイナミクスを共有するときに、強力な模倣学習を保証する。
しかし、多くのデプロイメント環境では、テスト環境の遷移はトレーニングと異なり、古典的なオフラインILでは、すべての状態におけるアクションにコミットしなければならない。
これは選択的な模倣の研究を動機付けており、学習者は確実に行動できないときに停止することを選択できる。
学習者は、任意の動的シフトの下で選択的模倣のモデルを導入する:訓練環境からのラベル付き専門家のデモンストレーションと、テスト環境で同じ専門家からのラベル付き状態軌跡を与えられた場合、学習者は、完了した選択的ポリシーを出力する(訓練中に頻繁に停止する)。
我々のアルゴリズムであるSeqRejectronは、水平線やポリシークラスに依存しない小さなバリデータポリシーを用いて停止ルールを構築する。
決定論的なポリシーでは、これはスパースコストを仮定して、地平線のない$\tilde{O}(\log|\|/ε^2)$サンプルの複雑さをもたらす。
確率的ポリシでは、累積ヘルリンガー停止時間を用いて、同様の水平自由保証が得られる。
フレームワークを、不特定の専門家と異なる専門家ポリシーに拡張し、トレーニングとテストにまたがって、不特定の量によって優雅に劣化する結果を得る。
関連論文リスト
- Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations [8.436020932157684]
Smooth Policy Regularisation from Demonstrations (SPReD) は基本的な問題に対処するフレームワークである。
SPReDはアンサンブル法を用いて、実証行動と政策行動の両方のQ値分布を明示的にモデル化し、比較の不確実性を定量化する。
8つのロボティクスタスクにわたる実験では、複雑なタスクにおいて14倍まで既存のアプローチを上回りながら、品質と量を示すための堅牢性を維持している。
論文 参考訳(メタデータ) (2025-09-19T13:47:20Z) - The Pitfalls of Imitation Learning when Actions are Continuous [33.44344966171865]
本研究では,連続的な状態・動作制御システムにおいて,専門家のデモレータを模倣する問題について検討する。
指数的安定性と呼ばれる制御理論的性質を満たす力学であっても、任意の滑らかな決定論的模倣ポリシーは必ず誤りを被ることを示す。
論文 参考訳(メタデータ) (2025-03-12T18:11:37Z) - UNIQ: Offline Inverse Q-learning for Avoiding Undesirable Demonstrations [11.666700714916065]
我々は、望ましくない実演を避ける政策としてオフライン学習の問題に対処する。
学習課題を学習方針と望ましくない政策との統計的距離を最大化するものとして定式化する。
我々のアルゴリズムUNIQは、逆Q-ラーニングフレームワークを構築し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-10-10T18:52:58Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。