論文の概要: Explore, Discover and Learn: Unsupervised Discovery of State-Covering
Skills
- arxiv url: http://arxiv.org/abs/2002.03647v4
- Date: Mon, 3 Aug 2020 11:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:10:11.200717
- Title: Explore, Discover and Learn: Unsupervised Discovery of State-Covering
Skills
- Title(参考訳): 探索、発見、学習 - 国家被覆スキルの教師なし発見
- Authors: V\'ictor Campos, Alexander Trott, Caiming Xiong, Richard Socher,
Xavier Giro-i-Nieto, Jordi Torres
- Abstract要約: 情報理論的スキル発見の代替手法として,'Explore, Discover and Learn'(EDL)がある。
本稿では,EDLがカバレッジ問題を克服し,学習スキルの初期状態への依存を減らし,ユーザが学習すべき行動について事前定義できるようにするなど,大きなメリットがあることを示す。
- 参考スコア(独自算出の注目度): 155.11646755470582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring abilities in the absence of a task-oriented reward function is at
the frontier of reinforcement learning research. This problem has been studied
through the lens of empowerment, which draws a connection between option
discovery and information theory. Information-theoretic skill discovery methods
have garnered much interest from the community, but little research has been
conducted in understanding their limitations. Through theoretical analysis and
empirical evidence, we show that existing algorithms suffer from a common
limitation -- they discover options that provide a poor coverage of the state
space. In light of this, we propose 'Explore, Discover and Learn' (EDL), an
alternative approach to information-theoretic skill discovery. Crucially, EDL
optimizes the same information-theoretic objective derived from the empowerment
literature, but addresses the optimization problem using different machinery.
We perform an extensive evaluation of skill discovery methods on controlled
environments and show that EDL offers significant advantages, such as
overcoming the coverage problem, reducing the dependence of learned skills on
the initial state, and allowing the user to define a prior over which behaviors
should be learned. Code is publicly available at
https://github.com/victorcampos7/edl.
- Abstract(参考訳): タスク指向報酬関数が存在しない場合の能力獲得は、強化学習研究の最前線にある。
この問題は、オプション発見と情報理論の関連性を引き出すエンパワーメントのレンズを通して研究されている。
情報理論的スキル発見手法はコミュニティから多くの関心を集めているが,その限界を理解するための研究はほとんど行われていない。
理論的分析と実証的な証拠を通じて、既存のアルゴリズムが共通の制限に悩まされていることを示す。
そこで本稿では,情報理論的スキル発見のための代替手法として,'Explore, Discover and Learn' (EDL)を提案する。
重要なことは、EDLはエンパワーメント文献から導かれる同じ情報理論の目的を最適化するが、異なる機械を用いて最適化問題に対処する。
我々は,制御環境におけるスキル発見手法の広範な評価を行い,edlがカバレッジ問題を克服し,初期状態への学習スキルの依存度を低減し,ユーザが学習すべき振る舞いを事前に定義できるようにすることなど,大きなメリットがあることを示す。
コードはhttps://github.com/victorcampos7/edlで公開されている。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Collaborative Knowledge Infusion for Low-resource Stance Detection [83.88515573352795]
姿勢検出モデルを支援するために、ターゲット関連の知識がしばしば必要である。
低リソース姿勢検出タスクに対する協調的知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T08:32:14Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual
Learning [76.47138162283714]
蓄積とは、以前取得した情報や知識の喪失または劣化を指す。
フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
調査では、忘れることは二重刃の剣であり、ある場合には有益で望ましいと論じている。
論文 参考訳(メタデータ) (2023-07-16T16:27:58Z) - Explainability in reinforcement learning: perspective and position [1.299941371793082]
本稿では, 説明可能なRL領域における既存手法の体系的概要について述べる。
新しく統合された分類法を提案し、既存の分類を構築・拡張する。
論文 参考訳(メタデータ) (2022-03-22T09:00:13Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。