論文の概要: A Study of Global and Episodic Bonuses for Exploration in Contextual
MDPs
- arxiv url: http://arxiv.org/abs/2306.03236v1
- Date: Mon, 5 Jun 2023 20:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 18:32:05.389622
- Title: A Study of Global and Episodic Bonuses for Exploration in Contextual
MDPs
- Title(参考訳): 文脈mdpにおける探索のためのグローバルおよびエピソディックボーナスに関する研究
- Authors: Mikael Henaff, Minqi Jiang, Roberta Raileanu
- Abstract要約: エピソード間の共有構造がほとんどない場合には,エピソードボーナスが最も有効であることを示す。
また、この2つのボーナスを組み合わせることで、共有構造の違いによって、より堅牢なパフォーマンスが得られることもわかりました。
これにより、前の作業で使用されるMiniHackスイートから16タスクにまたがる新しい最先端のアートを設定するアルゴリズムが実現される。
- 参考スコア(独自算出の注目度): 21.31346761487944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration in environments which differ across episodes has received
increasing attention in recent years. Current methods use some combination of
global novelty bonuses, computed using the agent's entire training experience,
and \textit{episodic novelty bonuses}, computed using only experience from the
current episode. However, the use of these two types of bonuses has been ad-hoc
and poorly understood. In this work, we shed light on the behavior of these two
types of bonuses through controlled experiments on easily interpretable tasks
as well as challenging pixel-based settings. We find that the two types of
bonuses succeed in different settings, with episodic bonuses being most
effective when there is little shared structure across episodes and global
bonuses being effective when more structure is shared. We develop a conceptual
framework which makes this notion of shared structure precise by considering
the variance of the value function across contexts, and which provides a
unifying explanation of our empirical results. We furthermore find that
combining the two bonuses can lead to more robust performance across different
degrees of shared structure, and investigate different algorithmic choices for
defining and combining global and episodic bonuses based on function
approximation. This results in an algorithm which sets a new state of the art
across 16 tasks from the MiniHack suite used in prior work, and also performs
robustly on Habitat and Montezuma's Revenge.
- Abstract(参考訳): 近年,エピソードによって異なる環境の探索が注目されている。
現在の方法は、エージェントのトレーニング経験全体を用いて計算されるグローバルノベルティボーナスと、現在のエピソードの経験のみを用いて計算される \textit{episodic novelty bonuses} の組み合わせを用いる。
しかし、これら2種類のボーナスの使用はアドホックであり、あまり理解されていない。
本研究では,これらの2種類のボーナスの挙動を,容易に解釈可能なタスクの制御実験や,ピクセルベースの設定の課題を通じて明らかにした。
エピソード間の共有構造がほとんどない場合には, エピソードボーナスが最も効果的であり, より多くの構造が共有される場合には, グローバルボーナスが有効である。
我々は,コンテキスト間の値関数の分散を考慮し,この共有構造の概念を正確化する概念的枠組みを開発し,実験結果の統一的な説明を提供する。
さらに,これら2つのボーナスを組み合わせることで,共有構造の異なる程度においてより堅牢な性能が得られ,関数近似に基づく大域ボーナスとエピソディックボーナスの定義と結合のためのアルゴリズム選択が異なっていた。
この結果、以前の作業で使われたミニハックスイートから16のタスクにまたがって新しい状態を設定するアルゴリズムが生まれ、また居住地とモンテズマの復讐に対して堅牢に機能する。
関連論文リスト
- Reward Augmentation in Reinforcement Learning for Testing Distributed Systems [6.0560257343687995]
人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。
本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。
お互いに構築する2つの異なるテクニックを示します。
論文 参考訳(メタデータ) (2024-09-02T15:07:05Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z) - Explore to Generalize in Zero-Shot RL [38.43215023828472]
本研究では,強化学習におけるゼロショットの一般化について検討する。
提案手法は,Mazeタスクが83%,Heistが74%,トレーニングレベルが200ドルという,極めて効果的な一般化を実現したProcGen課題のタスクの最先端技術であることを示す。
論文 参考訳(メタデータ) (2023-06-05T17:49:43Z) - Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning [18.762198598488066]
EMAXは、値関数のアンサンブルで値ベースのMARLアルゴリズムをシームレスに拡張するフレームワークである。
EMAXは、UCB政策におけるアンサンブル全体の価値見積の不確実性を利用して探索を導く。
最適化中、EMAXは目標値をアンサンブルの平均値推定として計算する。
評価中、EMAXはアンサンブル全体で多数決後のアクションを選択し、サブ最適アクションを選択する可能性を減らす。
論文 参考訳(メタデータ) (2023-02-07T12:51:20Z) - Reward Bonuses with Gain Scheduling Inspired by Iterative Deepening
Search [8.071506311915396]
本稿では,タスク指向の報酬関数に本質的なボーナスを付加する手法を提案する。
様々なボーナスが現在までに設計されており、グラフ理論における深さ優先と幅優先の探索アルゴリズムに類似している。
2つの探索アルゴリズムの利点を継承することが知られている反復的深化探索にインスパイアされた、設計されたボーナスにゲインスケジューリングを適用する。
論文 参考訳(メタデータ) (2022-12-21T04:52:13Z) - Contextual Bandits for Advertising Campaigns: A Diffusion-Model
Independent Approach (Extended Version) [73.59962178534361]
拡散ネットワークや情報伝達の仕方を決定するモデルについてはほとんど知られていないと考えられる影響問題について検討する。
この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。
本稿では,2つの文脈的マルチアーム・バンディットの手法と,インフルエンサーの残りのポテンシャルに対する上限について比較する。
論文 参考訳(メタデータ) (2022-01-13T22:06:10Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Combinatorial Pure Exploration with Bottleneck Reward Function and its
Extension to General Reward Functions [13.982295536546728]
ボトルネック報酬関数 (CPE-B) を用いたコンビネーションピュア探索問題について, 一定の信頼性と固定予算設定の下で検討する。
固定信頼と固定バジェットのアルゴリズムを両立させ,固定信頼設定のサンプル複雑性を低く設定する。
さらに、CPE-Bを一般報酬関数(CPE-G)に拡張し、非自明なサンプル複雑性を持つ一般非線形報酬関数に対する最初の固定信頼アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-24T06:47:51Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。