論文の概要: Learned Belief Search: Efficiently Improving Policies in Partially
Observable Settings
- arxiv url: http://arxiv.org/abs/2106.09086v1
- Date: Wed, 16 Jun 2021 19:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 11:07:45.008037
- Title: Learned Belief Search: Efficiently Improving Policies in Partially
Observable Settings
- Title(参考訳): 学習された信念探索: 部分的に観察可能な設定でポリシーを効率的に改善する
- Authors: Hengyuan Hu, Adam Lerer, Noam Brown, Jakob Foerster
- Abstract要約: 本稿では,部分的に観測可能な環境に対する計算効率の良い探索手法であるemphLearned Belief Search (LBS)を提案する。
LBSは、教師付きタスクとして学習される近似的な自己回帰的反事実的信念を使用する。
ハナビのベンチマークドメインでは、LBSは正確な検索の利益の55%を取得でき、計算要求を35.8倍の4.6倍の$で削減できる。
- 参考スコア(独自算出の注目度): 28.665618926525386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search is an important tool for computing effective policies in single- and
multi-agent environments, and has been crucial for achieving superhuman
performance in several benchmark fully and partially observable games. However,
one major limitation of prior search approaches for partially observable
environments is that the computational cost scales poorly with the amount of
hidden information. In this paper we present \emph{Learned Belief Search}
(LBS), a computationally efficient search procedure for partially observable
environments. Rather than maintaining an exact belief distribution, LBS uses an
approximate auto-regressive counterfactual belief that is learned as a
supervised task. In multi-agent settings, LBS uses a novel public-private model
architecture for underlying policies in order to efficiently evaluate these
policies during rollouts. In the benchmark domain of Hanabi, LBS can obtain 55%
~ 91% of the benefit of exact search while reducing compute requirements by
$35.8 \times$ ~ $4.6 \times$, allowing it to scale to larger settings that were
inaccessible to previous search methods.
- Abstract(参考訳): 検索はシングルエージェントとマルチエージェント環境において効果的なポリシーを計算するための重要なツールであり、いくつかのベンチマークで超人的なパフォーマンスを達成するのに不可欠である。
しかしながら、部分的に観測可能な環境に対する事前探索アプローチの大きな制限の1つは、計算コストが隠れた情報量に乏しいことである。
本稿では,部分的に観測可能な環境に対する計算効率の良い探索手法である \emph{Learned Belief Search} (LBS) を提案する。
正確な信念分布を維持するのではなく、LBSは教師付きタスクとして学習されるほぼ自己回帰的反事実的信念を使用する。
マルチエージェント設定では、LBSはロールアウト時にこれらのポリシーを効率的に評価するために、基礎となるポリシーに対して新しいパブリックプライベートモデルアーキテクチャを使用する。
ハナビのベンチマークドメインでは、LBSは正確な検索の利点の55%~91%を得ることができ、計算要求を35.8 \times$~4.6 \times$に減らし、以前の検索方法ではアクセスできないより大きな設定にスケールすることができる。
関連論文リスト
- Uncertainty-Guided Optimization on Large Language Model Search Trees [42.71167208999792]
大規模言語モデル(LLM)の復号過程における最大可能性列の探索においては,greedy や beam search などの木探索アルゴリズムが標準となっている。
LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。
モンテカルロ木探索のような高価なシミュレーションに基づく非光学的手法とは異なり、我々の手法は信念からのサンプルのみを必要とする。
論文 参考訳(メタデータ) (2024-07-04T14:08:50Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。