論文の概要: NBDI: A Simple and Efficient Termination Condition for Skill Extraction from Task-Agnostic Demonstrations
- arxiv url: http://arxiv.org/abs/2501.12668v2
- Date: Thu, 23 Jan 2025 04:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 12:37:20.819232
- Title: NBDI: A Simple and Efficient Termination Condition for Skill Extraction from Task-Agnostic Demonstrations
- Title(参考訳): NBDI:タスク非依存のデモからスキル抽出のためのシンプルで効率的な終了条件
- Authors: Myunsoo Kim, Hayeong Lee, Seong-Woong Shim, JunHo Seo, Byung-Jun Lee,
- Abstract要約: そこで本稿では,状態対応モジュールを通じて決定点を識別する,シンプルで効果的な終了条件を提案する。
我々のアプローチであるNBDI(Novety-based Decision Point Identification)は、複雑で長期のタスクにおいて、以前のベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 5.299459553709445
- License:
- Abstract: Intelligent agents are able to make decisions based on different levels of granularity and duration. Recent advances in skill learning enabled the agent to solve complex, long-horizon tasks by effectively guiding the agent in choosing appropriate skills. However, the practice of using fixed-length skills can easily result in skipping valuable decision points, which ultimately limits the potential for further exploration and faster policy learning. In this work, we propose to learn a simple and effective termination condition that identifies decision points through a state-action novelty module that leverages agent experience data. Our approach, Novelty-based Decision Point Identification (NBDI), outperforms previous baselines in complex, long-horizon tasks, and remains effective even in the presence of significant variations in the environment configurations of downstream tasks, highlighting the importance of decision point identification in skill learning.
- Abstract(参考訳): インテリジェントエージェントは、さまざまなレベルの粒度と持続時間に基づいて決定を下すことができる。
近年のスキル学習の進歩により、エージェントが適切なスキルを選択する際に効果的にエージェントを導くことによって、複雑で長期の課題を解決できるようになった。
しかし、固定長のスキルを使用するプラクティスは、価値ある決定ポイントをスキップすることを容易にし、究極的には、さらなる探索とより高速な政策学習の可能性を制限する。
そこで本研究では,エージェント体験データを活用した状態対応ノベルティモジュールを用いて,意思決定点を識別する,シンプルで効果的な終了条件を提案する。
我々のアプローチであるNBDI(Novety-based Decision Point Identification)は、複雑で長い水平なタスクにおいて、以前のベースラインよりも優れており、下流タスクの環境構成に有意なばらつきがあっても有効であり、スキル学習における意思決定ポイント識別の重要性を強調している。
関連論文リスト
- Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation [0.0]
TAPD(Task-Agnostic Policy Distillation)フレームワークが導入されている。
本稿では,継続学習の問題に対処する。
タスク非依存の蒸留知識を利用することで、下流タスクをより効率的に解決することができる。
論文 参考訳(メタデータ) (2024-11-25T16:18:39Z) - SkillTree: Explainable Skill-Based Deep Reinforcement Learning for Long-Horizon Control Tasks [25.749385844847133]
複雑な連続的なアクション空間を離散的なスキル空間に還元する新しいフレームワークであるSkillTreeを提案する。
スキル決定を説明可能なものにすることで、スキルレベルの説明可能性を実現し、複雑なタスクにおける意思決定プロセスの理解を深める。
論文 参考訳(メタデータ) (2024-11-19T02:35:14Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Self-Attention Meta-Learner for Continual Learning [5.979373021392084]
SAM(Self-Attention Meta-Learner)は,タスクのシーケンスを学習する継続的学習の事前知識を学習する。
SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶアテンションメカニズムが組み込まれている。
タスク推論において,提案手法を Split CIFAR-10/100 と Split MNIST のベンチマークで評価した。
論文 参考訳(メタデータ) (2021-01-28T17:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。