論文の概要: Learning from Demonstrations via Capability-Aware Goal Sampling
- arxiv url: http://arxiv.org/abs/2601.08731v1
- Date: Tue, 13 Jan 2026 17:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.299858
- Title: Learning from Demonstrations via Capability-Aware Goal Sampling
- Title(参考訳): 能力を考慮したゴールサンプリングによるデモから学ぶ
- Authors: Yuanlin Duan, Yuning Wang, Wenjie Qiu, He Zhu,
- Abstract要約: Cago(カゴ)は、専門家の軌道への不安定な依存を軽減し、直接の模倣を行うための学習から学ぶ方法である。
Cagoはスパース・リワード・ゴール条件付きタスクの範囲で,サンプル効率と最終性能を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 12.442790487354742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite its promise, imitation learning often fails in long-horizon environments where perfect replication of demonstrations is unrealistic and small errors can accumulate catastrophically. We introduce Cago (Capability-Aware Goal Sampling), a novel learning-from-demonstrations method that mitigates the brittle dependence on expert trajectories for direct imitation. Unlike prior methods that rely on demonstrations only for policy initialization or reward shaping, Cago dynamically tracks the agent's competence along expert trajectories and uses this signal to select intermediate steps--goals that are just beyond the agent's current reach--to guide learning. This results in an adaptive curriculum that enables steady progress toward solving the full task. Empirical results demonstrate that Cago significantly improves sample efficiency and final performance across a range of sparse-reward, goal-conditioned tasks, consistently outperforming existing learning from-demonstrations baselines.
- Abstract(参考訳): その約束にもかかわらず、模擬学習は、デモの完全な複製が非現実的であり、小さなエラーが破滅的に蓄積できる長い水平環境で失敗することが多い。
本稿では,カゴ (Capability-Aware Goal Smpling) について紹介する。
政策の初期化や報酬形成にのみ依存する従来の方法とは異なり、Cagoは専門家の軌道に沿ってエージェントの能力を動的に追跡し、エージェントの現在のリーチを超えた中間ステップを選択するためにこの信号を使用する。
これにより、完全なタスクの解決に向けて安定した進捗を可能にする適応的なカリキュラムが実現される。
実験結果から, Cagoはスパース・リワード, ゴール条件付きタスクの範囲で, サンプル効率と最終性能を著しく向上し, 既存の学習ベースラインを一貫して上回ることを示した。
関連論文リスト
- Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - CCDP: Composition of Conditional Diffusion Policies with Guided Sampling [17.9632871021636]
本稿では,以前に失敗した動作を避けるため,サンプリング分布を改良する改良されたサンプリング戦略を提案する。
本手法は,探索行動の追加を必要とせずに,回復動作を推定できることを実証する。
提案手法では, サンプリングスペースを動的に調整し, 先行サンプルが不足した場合の効率を向上させる低レベルコントローラを提案する。
論文 参考訳(メタデータ) (2025-03-19T16:24:55Z) - Zero-Shot Offline Imitation Learning via Optimal Transport [21.548195072895517]
ゼロショットの模倣学習アルゴリズムは、テスト時にたった1つのデモから、目に見えない振る舞いを再現する。
既存の実践的なアプローチでは、専門家のデモンストレーションを一連の目標と見なし、ハイレベルなゴールセレクタと低レベルなゴール条件のポリシーで模倣を可能にする。
そこで本研究では,模倣学習に固有の占領目標を直接最適化することにより,この問題を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:10:51Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。