論文の概要: Learning to Discover Skills through Guidance
- arxiv url: http://arxiv.org/abs/2310.20178v2
- Date: Wed, 1 Nov 2023 13:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 10:34:57.215794
- Title: Learning to Discover Skills through Guidance
- Title(参考訳): 指導によるスキル発見の学習
- Authors: Hyunseung Kim, Byungkun Lee, Hojoon Lee, Dongyoon Hwang, Sejik Park,
Kyushik Min, Jaegul Choo
- Abstract要約: 本稿では,DISCO-DANCE(DISCO-DANCE)を用いた新しいスキル発見アルゴリズムを提案する。
ガイドスキルは、探索されていない状態に到達する可能性が最も高いガイドスキルを選択し、ガイドスキルに従うために他のスキルをガイドし、(3)ガイドスキルは探索されていない状態における識別性を最大化するために分散される。
DISCO-DANCEは、2つのナビゲーションベンチマークと連続制御ベンチマークを含む、困難な環境での他のUSDベースラインよりも優れていることを示す実証的な評価である。
- 参考スコア(独自算出の注目度): 29.675174739834947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of unsupervised skill discovery (USD), a major challenge is
limited exploration, primarily due to substantial penalties when skills deviate
from their initial trajectories. To enhance exploration, recent methodologies
employ auxiliary rewards to maximize the epistemic uncertainty or entropy of
states. However, we have identified that the effectiveness of these rewards
declines as the environmental complexity rises. Therefore, we present a novel
USD algorithm, skill discovery with guidance (DISCO-DANCE), which (1) selects
the guide skill that possesses the highest potential to reach unexplored
states, (2) guides other skills to follow guide skill, then (3) the guided
skills are dispersed to maximize their discriminability in unexplored states.
Empirical evaluation demonstrates that DISCO-DANCE outperforms other USD
baselines in challenging environments, including two navigation benchmarks and
a continuous control benchmark. Qualitative visualizations and code of
DISCO-DANCE are available at https://mynsng.github.io/discodance.
- Abstract(参考訳): 教師なしスキル発見(USD)の分野では、主に最初の軌道からスキルが逸脱した場合の相当な罰則のために、限られた探索が主な課題である。
探索を強化するため、最近の手法では補助的な報酬を用いて、状態の疫学的な不確実性やエントロピーを最大化する。
しかし,環境の複雑さが増大するにつれて,これらの報酬の有効性は低下することがわかった。
そこで本研究では,(1)未探索状態に到達する可能性が最も高いガイドスキルを選択し,(2)ガイドスキルに従うための他のスキルを誘導し,(3)未探索状態における識別性を最大化するために,誘導スキルを分散させる,新しいUSDアルゴリズムであるDISCO-DANCEを提案する。
DISCO-DANCEは、2つのナビゲーションベンチマークと連続制御ベンチマークを含む、困難な環境での他のUSDベースラインよりも優れていることを示す実証的な評価である。
DISCO-DANCEの質的な視覚化とコードはhttps://mynsng.github.io/discodance.comで公開されている。
関連論文リスト
- Towards Certified Unlearning for Deep Neural Networks [50.816473152067104]
認定されていない未学習は、凸機械学習モデルで広く研究されている。
認定アンラーニングとディープニューラルネットワーク(DNN)のギャップを埋める手法をいくつか提案する。
論文 参考訳(メタデータ) (2024-08-01T21:22:10Z) - Constrained Ensemble Exploration for Unsupervised Skill Discovery [43.00837365639085]
教師なし強化学習(Unsupervised Reinforcement Learning, RL)は、報酬なしのトレーニングを通じて有用な行動を学ぶための、有望なパラダイムを提供する。
そこで我々は,各スキルが状態プロトタイプに基づいて分割探索を行う,新しい教師なしRLフレームワークを提案する。
提案手法は, 探索されたアンサンブルスキルを学習し, 従来の手法と比較して, 様々な下流タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-25T03:07:56Z) - Offline Diversity Maximization Under Imitation Constraints [23.761620064055897]
教師なしスキル発見のための原則付きオフラインアルゴリズムを提案する。
私たちの主な分析的貢献は、フェンシェルの双対性、強化学習、教師なしスキル発見を結びつけることです。
標準オフラインベンチマークD4RLにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-07-21T06:12:39Z) - E-NER: Evidential Deep Learning for Trustworthy Named Entity Recognition [69.87816981427858]
ほとんどの名前付きエンティティ認識(NER)システムは、モデル不確実性を定量化する必要性を無視して、モデルパフォーマンスの改善に重点を置いている。
Evidential Deep Learning (EDL) は、最近、分類タスクの予測不確実性を明示的にモデル化するための有望な解決策として提案されている。
本稿では、従来のEDLに2つの不確実性誘導損失条件を導入し、一連の不確実性誘導訓練戦略を導入することにより、E-NERという信頼性の高いNERフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:36:16Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Learning Task Agnostic Skills with Data-driven Guidance [0.0]
本稿では,専門家が訪問する状態のサブセットに向けて,スキル発見を導くための枠組みを提案する。
本手法を各種強化学習タスクに適用し,このような予測がより有用な行動をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-04T06:53:10Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。