論文の概要: Don't Do What Doesn't Matter: Intrinsic Motivation with Action
Usefulness
- arxiv url: http://arxiv.org/abs/2105.09992v1
- Date: Thu, 20 May 2021 18:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:20:30.098886
- Title: Don't Do What Doesn't Matter: Intrinsic Motivation with Action
Usefulness
- Title(参考訳): 意味のないことをするな - 行動の有用性を伴う本質的動機付け
- Authors: Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin
- Abstract要約: 内在的モチベーションガイダンスは、通常、新奇な信号を通して新しい状態を探すためにエージェントにインセンティブを与える。
我々は、国家の新規性から関連する行動を伴う状態へと重点を移す、DoWhaM(Don't Do Doesn't Matter)を提案する。
手続き生成環境であるMiniGridにおけるDoWhaMの評価を行い,DowhaMがサンプルの複雑さを大幅に低減することを示す。
- 参考スコア(独自算出の注目度): 34.93728985157331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse rewards are double-edged training signals in reinforcement learning:
easy to design but hard to optimize. Intrinsic motivation guidances have thus
been developed toward alleviating the resulting exploration problem. They
usually incentivize agents to look for new states through novelty signals. Yet,
such methods encourage exhaustive exploration of the state space rather than
focusing on the environment's salient interaction opportunities. We propose a
new exploration method, called Don't Do What Doesn't Matter (DoWhaM), shifting
the emphasis from state novelty to state with relevant actions. While most
actions consistently change the state when used, \textit{e.g.} moving the
agent, some actions are only effective in specific states, \textit{e.g.},
\emph{opening} a door, \emph{grabbing} an object. DoWhaM detects and rewards
actions that seldom affect the environment. We evaluate DoWhaM on the
procedurally-generated environment MiniGrid, against state-of-the-art methods
and show that DoWhaM greatly reduces sample complexity.
- Abstract(参考訳): スパース報酬(Sparse reward)とは、強化学習における二重エッジのトレーニング信号である。
したがって,本質的なモチベーションガイダンスは,結果の探索問題を緩和するために開発された。
彼らは通常、新奇な信号を通して新しい状態を探すためにエージェントにインセンティブを与える。
しかし、このような手法は環境の健全な相互作用機会に焦点をあてるのではなく、州空間の徹底的な探索を促進する。
本研究では,国家の新規性から関連する行動を伴う状態へと重点を移す,DoWhaM (Don't Do What Don't Matter) と呼ばれる新たな探索手法を提案する。
ほとんどのアクションは使用時に常に状態を変更するが、 \textit{e.g.}
エージェントを動かすと、いくつかのアクションは特定の状態にのみ有効である。
emph{opening} はドア、 \emph{grabbing} はオブジェクトです。
DoWhaMは環境にほとんど影響しないアクションを検出し、報奨する。
手続き生成環境であるMiniGridにおけるDoWhaMの評価を行い,サンプルの複雑さを大幅に低減させることを示す。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Neuro-Inspired Fragmentation and Recall to Overcome Catastrophic
Forgetting in Curiosity [31.396929282048916]
深層強化学習法は様々なタスクにおいて顕著な性能を示すが,広い環境下での探索に苦戦している。
予測に基づく本質的な報酬は、エージェントがハードな探索タスクを解くのに役立つが、それらは破滅的な忘れに苦しむ可能性がある。
本研究では,人間と動物の学習方法に触発された新しい手法FARCuriosityを提案する。
論文 参考訳(メタデータ) (2023-10-26T16:28:17Z) - LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following [142.25438780561603]
本稿では,メタアクションの概念を導入し,言語命令とエージェントのアクション空間間の意味的ギャップを埋める。
強力なマルチモーダルトランスフォーマーベースラインと比較して、目に見えない環境での絶対的な成功率は4.5%に達する。
論文 参考訳(メタデータ) (2023-10-18T21:43:07Z) - Time-Myopic Go-Explore: Learning A State Representation for the
Go-Explore Paradigm [0.5156484100374059]
時間的近接状態をクラスタリングする新しい時間的ミオピック状態表現を導入する。
手作り表現を使わずに、新規性を確実に推定する最初の学習状態表現を実証する。
本研究は,モンテズマレブンジュ,グラビタール,フロストビテ(アタリ)の硬い探査環境について評価した。
論文 参考訳(メタデータ) (2023-01-13T16:13:44Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments [66.80667987347151]
固有の報酬に基づく方法は、しばしば手続き的に生成された環境で不足する。
RAPIDは、手続き的に生成された環境のためのシンプルで効果的なエピソードレベルの探索方法です。
そこで本手法は,MiniGrid環境,MiniWorldの3D Mazeナビゲーションタスク,MuJoCoタスクのスパースについて実証した。
論文 参考訳(メタデータ) (2021-01-20T14:22:01Z) - Exploring Unknown States with Action Balance [48.330318997735574]
探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
論文 参考訳(メタデータ) (2020-03-10T03:32:28Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。