論文の概要: Sample-Efficient Expert Query Control in Active Imitation Learning via Conformal Prediction
- arxiv url: http://arxiv.org/abs/2512.00453v1
- Date: Sat, 29 Nov 2025 11:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.247554
- Title: Sample-Efficient Expert Query Control in Active Imitation Learning via Conformal Prediction
- Title(参考訳): 共形予測による能動模倣学習におけるサンプル効率の良いエキスパートクエリ制御
- Authors: Arad Firouzkouhi, Omid Mirzaeedodangeh, Lars Lindemann,
- Abstract要約: アクティブ・イミテーション・ラーニング(CRSAIL)のためのコンフォーマライズ・リジェクション・サンプリングについて述べる。
CRSAILは、K$-thのエキスパートステートとの距離によって、状態の新規性を評価する。
これにより、エキスパートクエリの総数は、DAggerに対して96%、以前のAILメソッドよりも最大65%削減される。
- 参考スコア(独自算出の注目度): 2.344992278528697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active imitation learning (AIL) combats covariate shift by querying an expert during training. However, expert action labeling often dominates the cost, especially in GPU-intensive simulators, human-in-the-loop settings, and robot fleets that revisit near-duplicate states. We present Conformalized Rejection Sampling for Active Imitation Learning (CRSAIL), a querying rule that requests an expert action only when the visited state is under-represented in the expert-labeled dataset. CRSAIL scores state novelty by the distance to the $K$-th nearest expert state and sets a single global threshold via conformal prediction. This threshold is the empirical $(1-α)$ quantile of on-policy calibration scores, providing a distribution-free calibration rule that links $α$ to the expected query rate and makes $α$ a task-agnostic tuning knob. This state-space querying strategy is robust to outliers and, unlike safety-gate-based AIL, can be run without real-time expert takeovers: we roll out full trajectories (episodes) with the learner and only afterward query the expert on a subset of visited states. Evaluated on MuJoCo robotics tasks, CRSAIL matches or exceeds expert-level reward while reducing total expert queries by up to 96% vs. DAgger and up to 65% vs. prior AIL methods, with empirical robustness to $α$ and $K$, easing deployment on novel systems with unknown dynamics.
- Abstract(参考訳): 能動模倣学習(AIL)は、訓練中に専門家に問い合わせることによって共変量シフトと戦う。
しかし、専門家のアクションラベリングは、特にGPU集約型シミュレータ、ヒューマン・イン・ザ・ループ設定、ほぼ重複状態を再検討するロボットフリートにおいて、コストを優先することが多い。
本稿では、専門家ラベル付きデータセットで、訪れた状態が不足している場合にのみ専門家のアクションを要求するクエリルールであるCRSAILについて述べる。
CRSAILは、$K$-thに近いエキスパート状態までの距離で状態の新規性をスコアし、共形予測を通じて単一のグローバルしきい値を設定する。
この閾値は、実証的な$(1-α)$ Quantile of on-policy calibration scoresであり、$α$を期待されるクエリレートにリンクし、タスクに依存しないチューニングノブに$α$をリンクする分布のないキャリブレーションルールを提供する。
この状態空間クエリ戦略は、オフレーヤに対して堅牢であり、セーフゲートベースのAILとは異なり、リアルタイムな専門家のテイクオーバなしに実行できる。
MuJoCoのロボティクスタスクを評価したところ、CRSAILはエキスパートレベルの報酬をマッチまたは超過し、エキスパートクエリ全体の96%対DAgger、以前のALIメソッドの65%を削減し、経験的ロバスト性は$α$と$K$に向上し、未知のダイナミクスを持つ新規システムへのデプロイメントを緩和する。
関連論文リスト
- UCB-type Algorithm for Budget-Constrained Expert Learning [71.67657715154034]
algnameM-LCBはUCBスタイルのメタアルゴリズムであり、幻想的後悔の保証を提供する
我々は、AlgnameM-LCBが、限られたリソースの下で、ステートフルで自己学習の専門家をコーディネートする、より現実的なシナリオまで、古典的な帯域幅パラダイムをどのように拡張しているかを示す。
論文 参考訳(メタデータ) (2025-10-26T12:36:17Z) - No Need for Learning to Defer? A Training Free Deferral Framework to Multiple Experts through Conformal Prediction [3.746889836344766]
本稿では,共形予測に基づくエキスパート推論のための訓練不要,モデル非依存,エキスパート非依存のフレームワークを提案する。
我々の手法は、スタンドアローンモデルと最強の専門家の両方より一貫して優れています。
論文 参考訳(メタデータ) (2025-09-16T02:01:21Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers [44.344548601242444]
Weakly-supervised RESidual Transformer (WeakREST) という新しいフレームワークを導入し,高い異常検出精度を実現する。
画素単位の異常局所化タスクをブロック単位の分類問題に再構成する。
弱いラベルと残差に基づく表現との相互作用を処理できるResMixMatchアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-06-06T08:19:30Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - DADAgger: Disagreement-Augmented Dataset Aggregation [0.0]
DAggerは、トレーニング中に遭遇したすべてのサンプルについて専門家に問い合わせることで、オリジナルのデータセットを集約する模倣アルゴリズムである。
DADAgger と呼ばれる DAgger の修正を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:44:14Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Bandits with Stochastic Experts: Constant Regret, Empirical Experts and Episodes [36.104981594178525]
エージェントが一連の専門家ポリシーを介し介入できる文脈的帯域幅問題の変種について検討する。
本稿では,D-UCB(Divergence-based Upper Confidence Bound)アルゴリズムを提案する。
また,経験的D-UCB (ED-UCB) アルゴリズムも提案する。
論文 参考訳(メタデータ) (2021-07-07T14:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。