論文の概要: Improving Intrinsic Exploration with Language Abstractions
- arxiv url: http://arxiv.org/abs/2202.08938v1
- Date: Thu, 17 Feb 2022 23:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 12:42:46.697077
- Title: Improving Intrinsic Exploration with Language Abstractions
- Title(参考訳): 言語抽象化による本質的探索の改善
- Authors: Jesse Mu, Victor Zhong, Roberta Raileanu, Minqi Jiang, Noah Goodman,
Tim Rockt\"aschel, Edward Grefenstette
- Abstract要約: 強化学習 (Reinforcement Learning, RL) エージェントは報酬が不足している場合に訓練が難しい。
近年の本質的な探査手法は、しばしば低レベルの探査に報いる州ベースのノベルティ対策を用いる。
自然言語を環境における関連する抽象化を強調するための一般的な媒体として検討する。
- 参考スコア(独自算出の注目度): 42.06703655839723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents are particularly hard to train when
rewards are sparse. One common solution is to use intrinsic rewards to
encourage agents to explore their environment. However, recent intrinsic
exploration methods often use state-based novelty measures which reward
low-level exploration and may not scale to domains requiring more abstract
skills. Instead, we explore natural language as a general medium for
highlighting relevant abstractions in an environment. Unlike previous work, we
evaluate whether language can improve over existing exploration methods by
directly extending (and comparing to) competitive intrinsic exploration
baselines: AMIGo (Campero et al., 2021) and NovelD (Zhang et al., 2021). These
language-based variants outperform their non-linguistic forms by 45-85% across
13 challenging tasks from the MiniGrid and MiniHack environment suites.
- Abstract(参考訳): 強化学習(RL)エージェントは、報酬が不足している場合、特に訓練が困難である。
共通の解決策の1つは、エージェントが環境を探索することを奨励するために内在的な報酬を使用することである。
しかし、近年の内在的な探索手法では、低レベルの探索に報いるが、より抽象的なスキルを必要とする領域にはスケールしない状態に基づく新しい手法が用いられることが多い。
代わりに、環境における関連する抽象化を強調するための一般的な媒体として自然言語を探索する。
amigo (campero et al., 2021) や noveld (zhang et al., 2021) といった競合型内在的探索ベースラインを直接拡張(および比較)することで、言語が既存の探索方法よりも改善できるかどうかを評価する。
これらの言語ベースの変種は、MiniGridとMiniHack環境スイートの13の課題に対して、言語以外の形式を45~85%上回っている。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping
Pixels to Rewards [40.1007184209417]
本稿では,タスクの自然言語記述の自由度を考慮し,画素を報酬にマッピングするモデルを提案する。
メタワールドロボット操作領域の実験は、言語に基づく報酬が政策学習のサンプル効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-07-30T15:50:38Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。