論文の概要: ASkDAgger: Active Skill-level Data Aggregation for Interactive Imitation Learning
- arxiv url: http://arxiv.org/abs/2508.05310v1
- Date: Thu, 07 Aug 2025 12:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.84631
- Title: ASkDAgger: Active Skill-level Data Aggregation for Interactive Imitation Learning
- Title(参考訳): ASkDAgger:インタラクティブな模倣学習のためのアクティブスキルレベルのデータ集約
- Authors: Jelle Luijkx, Zlatan Ajanović, Laura Ferranti, Jens Kober,
- Abstract要約: 我々は,Active Skill-level Data Aggregation (ASkDAgger)フレームワークを紹介する。
初級プランに対する教師のフィードバックを3つの重要な方法で活用する。
これらのコンポーネントはクエリ頻度と障害発生のバランスをとり、必要なデモアノテーションの数を減らし、一般化を改善し、変更するドメインへの適応を高速化する。
- 参考スコア(独自算出の注目度): 6.13102295708544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human teaching effort is a significant bottleneck for the broader applicability of interactive imitation learning. To reduce the number of required queries, existing methods employ active learning to query the human teacher only in uncertain, risky, or novel situations. However, during these queries, the novice's planned actions are not utilized despite containing valuable information, such as the novice's capabilities, as well as corresponding uncertainty levels. To this end, we allow the novice to say: "I plan to do this, but I am uncertain." We introduce the Active Skill-level Data Aggregation (ASkDAgger) framework, which leverages teacher feedback on the novice plan in three key ways: (1) S-Aware Gating (SAG): Adjusts the gating threshold to track sensitivity, specificity, or a minimum success rate; (2) Foresight Interactive Experience Replay (FIER), which recasts valid and relabeled novice action plans into demonstrations; and (3) Prioritized Interactive Experience Replay (PIER), which prioritizes replay based on uncertainty, novice success, and demonstration age. Together, these components balance query frequency with failure incidence, reduce the number of required demonstration annotations, improve generalization, and speed up adaptation to changing domains. We validate the effectiveness of ASkDAgger through language-conditioned manipulation tasks in both simulation and real-world environments. Code, data, and videos are available at https://askdagger.github.io.
- Abstract(参考訳): 人間の指導努力は、インタラクティブな模倣学習の幅広い適用性にとって重要なボトルネックである。
必要なクエリの数を減らすため、既存の手法では、不確実、危険、あるいは新しい状況下でのみ、人間の教師に問い合わせるアクティブラーニングを採用している。
しかしながら、これらのクエリの間、初心者の計画されたアクションは、初心者の能力やそれに対応する不確実性レベルといった貴重な情報を含むにもかかわらず、利用されない。
この目的のために、私たちは初心者に「私はこれをするつもりですが、私は不確実です」と言うことを許します。
本研究では,(1) S-Aware Gating (SAG): 感度, 特異性, あるいは最小成功率を追跡するためのゲーティングしきい値の調整, (2) 初歩的なアクションプランを実演に再放送するフォレスト・インタラクティブ・エクスペリエンス・リプレイ (FIER) ,(3) 初歩的な成功, 実演年齢に基づいてリプレイを優先する優先的インタラクティブ・エクスペリエンス・リプレイ (PIER) の3つの主要な方法で,初歩計画に対する教師のフィードバックを活用するアクティブスキルレベルデータアグリゲーション (ASkDAgger) フレームワークを紹介する。
これらのコンポーネントは、クエリ頻度と障害発生のバランスをとり、必要なデモアノテーションの数を減らし、一般化を改善し、変更するドメインへの適応を高速化する。
我々は,ASkDAggerの有効性を,シミュレーション環境と実環境環境の両方における言語条件の操作タスクを通して検証する。
コード、データ、ビデオはhttps://askdagger.github.io.comで公開されている。
関連論文リスト
- POET: Prompt Offset Tuning for Continual Human Action Adaptation [61.63831623094721]
ユーザと開発者に対して,デバイスモデルに新たなアクションクラスを継続的に追加することで,エクスペリエンスをパーソナライズする機能の提供を目標としています。
我々はこれをプライバシーに配慮した数発の連続的な行動認識として定式化する。
本稿では,新しい時間的学習可能なプロンプトチューニング手法を提案し,グラフニューラルネットワークにこのようなプロンプトチューニングを適用した。
論文 参考訳(メタデータ) (2025-04-25T04:11:24Z) - P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning [22.13331870720021]
C-ADA (Continuous Adapter) という,RFCL タスクに対する超高速学習手法を提案する。
C-ADAは、CALの特定の重みを柔軟に拡張し、各タスクの新たな知識を学び、古い重みを凍結して以前の知識を保存する。
提案手法は,現状のSOTA(State-of-the-art)法よりも優れ,性能とトレーニング速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-14T17:40:40Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Online Continual Learning For Interactive Instruction Following Agents [20.100312650193228]
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
本研究では,新しい行動学習と新しい環境学習という,エンボディエージェントのための2つの連続学習環境を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:33:48Z) - Learning to Learn for Few-shot Continual Active Learning [9.283518682371756]
継続的な学習は、新しいドメインで可塑性を示しながら、以前見たタスクを解く際の安定性を確保するために努力する。
連続学習の最近の進歩は、特にNLPドメインにおいて、主に教師付き学習環境に限られている。
我々はメタラーニングを活用し,メタコンチネンタルアクティブラーニングと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T05:22:11Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - AdaER: An Adaptive Experience Replay Approach for Continual Lifelong
Learning [16.457330925212606]
持続的生涯学習の課題に対処するために,適応的経験リプレイ(AdaER)を提案する。
AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。
結果: AdaERは、既存の持続的生涯学習ベースラインを上回っている。
論文 参考訳(メタデータ) (2023-08-07T01:25:45Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。