論文の概要: Adapting the Exploration Rate for Value-of-Information-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.11083v1
- Date: Tue, 20 Dec 2022 09:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:18:28.823616
- Title: Adapting the Exploration Rate for Value-of-Information-Based
Reinforcement Learning
- Title(参考訳): 情報活用強化学習における探索率の適用
- Authors: Isaac J. Sledge, Jose C. Principe
- Abstract要約: 我々は平衡に収束するための効率的な経路追従手法を開発した。
このスキームの下では、探索率はエージェントの経験に応じて自動的に適応される。
提案手法は従来の検索手法よりも少ないエピソードでより良いポリシーが得られることを示す。
- 参考スコア(独自算出の注目度): 9.137554315375919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the problem of adjusting the exploration rate when
using value-of-information-based exploration. We do this by converting the
value-of-information optimization into a problem of finding equilibria of a
flow for a changing exploration rate. We then develop an efficient
path-following scheme for converging to these equilibria and hence uncovering
optimal action-selection policies. Under this scheme, the exploration rate is
automatically adapted according to the agent's experiences. Global convergence
is theoretically assured.
We first evaluate our exploration-rate adaptation on the Nintendo GameBoy
games Centipede and Millipede. We demonstrate aspects of the search process. We
show that our approach yields better policies in fewer episodes than
conventional search strategies relying on heuristic, annealing-based
exploration-rate adjustments. We then illustrate that these trends hold for
deep, value-of-information-based agents that learn to play ten simple games and
over forty more complicated games for the Nintendo GameBoy system. Performance
either near or well above the level of human play is observed.
- Abstract(参考訳): 本稿では,情報量に基づく探索における探索率調整の問題について考察する。
我々は,情報量最適化を,変動する探索率に対する流れの平衡を求める問題に転換することでこれを行う。
次に、これらの平衡に収束し、最適な行動選択ポリシーを明らかにするための効率的な経路追従スキームを開発する。
このスキームでは、探索率はエージェントの経験に応じて自動的に適応される。
グローバル収束は理論的に保証されている。
まず,ニンテンドーゲームボーイゲーム「centipede」と「millipede」の探索率について評価した。
探索過程の側面を実証する。
本手法は,ヒューリスティックでアニーリングに基づく探索速度調整に依存する従来の検索戦略よりも少ないエピソードでより良いポリシーが得られることを示す。
そして、これらのトレンドは、Nintendo GameBoyシステムで10以上のシンプルなゲームをプレイし、さらに40以上の複雑なゲームをプレイすることを学ぶ、深い情報ベースのエージェントに当てはまる。
人間の遊びのレベルに近い、またはかなり高いパフォーマンスが観察される。
関連論文リスト
- Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - Preference-conditioned Pixel-based AI Agent For Game Testing [1.5059676044537105]
環境とのインタラクションによって学習するゲームテストAIエージェントは、これらの課題を軽減する可能性がある。
本稿では,ユーザの好みに応じて設定された環境を探索しながら,主に画素ベースの状態観測に依存するエージェント設計を提案する。
実AAAゲームにおける多くの側面に類似した複雑なオープンワールド環境において、調査対象とテスト実行品質に対して、我々のエージェントは、最先端の画素ベースのゲームテストエージェントよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-08-18T04:19:36Z) - Learning in Sparse Rewards settings through Quality-Diversity algorithms [1.4881159885040784]
この論文は、品質多様性(QD)アルゴリズムによるスパース報酬の問題に焦点を当てている。
論文の最初の部分は、ポリシーの多様性を評価する空間の表現を学ぶことに焦点を当てている。
この論文はSERENEアルゴリズムを導入し、探索空間の興味深い部分に集中する手法である。
論文 参考訳(メタデータ) (2022-03-02T11:02:34Z) - Offline Reinforcement Learning as Anti-Exploration [49.72457136766916]
我々は、新たなオフラインRLエージェントを設計するためのボーナスベースの探索に関する文献から着想を得た。
中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。
我々のエージェントは、連続的な制御ロコモーションと操作タスクのセットにおいて、最先端技術と競合していることを示す。
論文 参考訳(メタデータ) (2021-06-11T14:41:30Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。