Fugu-MT 論文翻訳(概要): NBDI: A Simple and Effective Termination Condition for Skill Extraction from Task-Agnostic Demonstrations

論文の概要: NBDI: A Simple and Effective Termination Condition for Skill Extraction from Task-Agnostic Demonstrations

arxiv url: http://arxiv.org/abs/2501.12668v3
Date: Tue, 20 May 2025 04:44:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:51.670547
Title: NBDI: A Simple and Effective Termination Condition for Skill Extraction from Task-Agnostic Demonstrations
Title（参考訳）: NBDI:タスクに依存しないデモからスキル抽出のためのシンプルで効果的な終了条件
Authors: Myunsoo Kim, Hayeong Lee, Seong-Woong Shim, JunHo Seo, Byung-Jun Lee,
Abstract要約: そこで本稿では,状態対応モジュールを通じて決定点を識別する,シンプルで効果的な終了条件を提案する。我々のアプローチであるNBDI(Novety-based Decision Point Identification)は、複雑で長期のタスクにおいて、以前のベースラインよりも優れている。
参考スコア（独自算出の注目度）: 5.299459553709445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Intelligent agents are able to make decisions based on different levels of granularity and duration. Recent advances in skill learning enabled the agent to solve complex, long-horizon tasks by effectively guiding the agent in choosing appropriate skills. However, the practice of using fixed-length skills can easily result in skipping valuable decision points, which ultimately limits the potential for further exploration and faster policy learning. In this work, we propose to learn a simple and effective termination condition that identifies decision points through a state-action novelty module that leverages agent experience data. Our approach, Novelty-based Decision Point Identification (NBDI), outperforms previous baselines in complex, long-horizon tasks, and remains effective even in the presence of significant variations in the environment configurations of downstream tasks, highlighting the importance of decision point identification in skill learning.
Abstract（参考訳）: インテリジェントエージェントは、さまざまなレベルの粒度と持続時間に基づいて決定を下すことができる。近年のスキル学習の進歩により、エージェントが適切なスキルを選択する際に効果的にエージェントを導くことによって、複雑で長期の課題を解決できるようになった。しかし、固定長のスキルを使用するプラクティスは、価値ある決定ポイントをスキップすることを容易にし、究極的には、さらなる探索とより高速な政策学習の可能性を制限する。そこで本研究では,エージェント体験データを活用した状態対応ノベルティモジュールを用いて,意思決定点を識別する,シンプルで効果的な終了条件を提案する。我々のアプローチであるNBDI(Novety-based Decision Point Identification)は、複雑で長い水平なタスクにおいて、以前のベースラインよりも優れており、下流タスクの環境構成に有意なばらつきがあっても有効であり、スキル学習における意思決定ポイント識別の重要性を強調している。

関連論文リスト

Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
Causally Aligned Curriculum Learning [69.11672390876763]
本稿では、因果レンズによるカリキュラムRLの問題について検討する。因果的に整合したソースタスクを特徴付ける十分なグラフィカルな条件を導出する。因果整合型カリキュラムを生成するための効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-03-21T02:20:38Z)
Self-Improving Skill Learning for Robust Skill-based Meta-Reinforcement Learning [6.959686714606018]
SISL(Self-Improving Skill Learning)は、ハイレベルなスキル改善ポリシーを分離して自己指導型スキル改善を行う。 SISLは様々なロングホライゾンタスクにおいて、他のスキルベースのメタRLメソッドよりも一貫して優れている。
論文参考訳（メタデータ） (2025-02-06T03:28:45Z)
Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation [0.0]
TAPD(Task-Agnostic Policy Distillation)フレームワークが導入されている。本稿では,継続学習の問題に対処する。タスク非依存の蒸留知識を利用することで、下流タスクをより効率的に解決することができる。
論文参考訳（メタデータ） (2024-11-25T16:18:39Z)
SkillTree: Explainable Skill-Based Deep Reinforcement Learning for Long-Horizon Control Tasks [25.749385844847133]
複雑な連続的なアクション空間を離散的なスキル空間に還元する新しいフレームワークであるSkillTreeを提案する。スキル決定を説明可能なものにすることで、スキルレベルの説明可能性を実現し、複雑なタスクにおける意思決定プロセスの理解を深める。
論文参考訳（メタデータ） (2024-11-19T02:35:14Z)
Instruction Matters: A Simple yet Effective Task Selection for Optimized Instruction Tuning of Specific Tasks [51.15473776489712]
本稿では,命令情報のみを利用してタスクを識別する,シンプルで効果的なタスク選択手法を提案する。提案手法は,タスク間のペア転送可能性の複雑な測定や,対象タスクのためのデータサンプルの作成を必要とする従来の手法に比べて,はるかに効率的である。実験の結果、命令のみに選択されたタスクセットのトレーニングにより、P3、Big-Bench、NIV2、Big-Bench Hardといったベンチマークのパフォーマンスが大幅に改善された。
論文参考訳（メタデータ） (2024-04-25T08:49:47Z)
Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。 ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文参考訳（メタデータ） (2023-11-01T04:40:05Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文参考訳（メタデータ） (2022-12-08T22:34:59Z)
Meta-Learning Parameterized Skills [12.845774297648738]
本稿では,伝達可能なパラメータ化スキルを学習し,それらを新しいアクション空間に合成することを目的とした,新しいスキル学習アルゴリズムを提案する。本研究では,提案アルゴリズムによってエージェントが難易度の高い長期作業(障害物コースとロボット操作)を解くことができることを実証的に実証する。
論文参考訳（メタデータ） (2022-06-07T21:30:58Z)
Autonomous Open-Ended Learning of Tasks with Non-Stationary Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文参考訳（メタデータ） (2022-05-16T10:43:01Z)
Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文参考訳（メタデータ） (2022-03-14T17:40:42Z)
Domain-Robust Visual Imitation Learning with Mutual Information Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文参考訳（メタデータ） (2021-03-08T21:18:58Z)
Self-Attention Meta-Learner for Continual Learning [5.979373021392084]
SAM(Self-Attention Meta-Learner)は,タスクのシーケンスを学習する継続的学習の事前知識を学習する。 SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶアテンションメカニズムが組み込まれている。タスク推論において,提案手法を Split CIFAR-10/100 と Split MNIST のベンチマークで評価した。
論文参考訳（メタデータ） (2021-01-28T17:35:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。