論文の概要: Doubly Robust Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2502.01672v1
- Date: Sat, 01 Feb 2025 19:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:00.666346
- Title: Doubly Robust Monte Carlo Tree Search
- Title(参考訳): 2倍のロバストなモンテカルロ木探索
- Authors: Manqing Liu, Andrew L. Beam,
- Abstract要約: 我々はDouubly Robust Monte Carlo Tree Search (DR-MCTS)を紹介し、Douubly Robust Off-policy EstimationをMonte Carlo Tree Search (MCTS)に統合する新しいアルゴリズムを提案する。
提案手法は, MCTSロールアウトとDR推定を組み合わせることで, 条件下での非バイアス性および分散低減の理論的保証を提供する。
Tic-Tac-Toeと部分的に観測可能なVirtualHome環境における実証評価は、DR-MCTSが標準MCTSよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present Doubly Robust Monte Carlo Tree Search (DR-MCTS), a novel algorithm that integrates Doubly Robust (DR) off-policy estimation into Monte Carlo Tree Search (MCTS) to enhance sample efficiency and decision quality in complex environments. Our approach introduces a hybrid estimator that combines MCTS rollouts with DR estimation, offering theoretical guarantees of unbiasedness and variance reduction under specified conditions. Empirical evaluations in Tic-Tac-Toe and the partially observable VirtualHome environment demonstrate DR-MCTS's superior performance over standard MCTS. In Tic-Tac-Toe, DR-MCTS achieves an 88% win rate compared to a 10% win rate for standard MCTS. In compound VirtualHome tasks, DR-MCTS attains a 20.7% success rate versus 10.3% for standard MCTS. Our scaling analysis reveals that DR-MCTS exhibits better sample efficiency, notably outperforming standard MCTS with larger language models while using a smaller model. These results underscore DR-MCTS's potential for efficient decision-making in complex, real-world scenarios where sample efficiency is paramount.
- Abstract(参考訳): 本稿では,Douubly Robo Tree Search (DR-MCTS)を提案する。Douubly Robo Tree Search (DR) をモンテカルロ木探索 (MCTS) に統合し,複雑な環境下でのサンプル効率と意思決定品質を向上させる。
提案手法では, MCTSロールアウトとDR推定を組み合わせるハイブリッド推定器を導入し, 条件下での非バイアス性および分散低減の理論的保証を提供する。
Tic-Tac-Toeと部分的に観測可能なVirtualHome環境における実証評価は、DR-MCTSが標準MCTSよりも優れていることを示す。
Tic-Tac-Toeでは、DR-MCTSは標準MCTSの10%の勝利率に比べて88%の勝利率を達成する。
複合VirtualHomeタスクでは、DR-MCTSは標準MCTSの10.3%に対して20.7%の成功率を達成した。
スケーリング分析の結果,DR-MCTSはより優れたサンプル効率を示し,特により小さなモデルを用いて,より大規模な言語モデルで標準MCTSより優れていた。
これらの結果は、サンプル効率が最重要である複雑な実世界のシナリオにおいて、DR-MCTSの効率的な意思決定の可能性を強調している。
関連論文リスト
- Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
MCTDは拡散フレームワーク内での探索・探索トレードオフの制御などのMCTSの利点を享受する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks [19.42056439537988]
モンテカルロ木探索(MCTS)を用いたLipschitz生涯計画のためのLiZeroについて述べる。
本稿では,ソースタスクから新しいタスクの探索・探索へ知識を伝達するための適応UCT(aUCT)の概念を提案する。
実験の結果,LiZeroは既存のMCTSや生涯学習ベースラインよりはるかに優れており,最適報酬への収束がはるかに速いことがわかった。
論文 参考訳(メタデータ) (2025-02-02T02:45:20Z) - Rethinking the "Heatmap + Monte Carlo Tree Search" Paradigm for Solving Large Scale TSP [11.388824026057735]
heatmap + Monte Carlo Tree Search (MCTS)"パラダイムは、最近、学習ベースのソリューションで注目を集めています。
本稿では,近年,学習型ソリューションの注目を集めている"ヒートマップ+モンテカルロ木探索(MCTS)"のパラダイムを再考する。
本研究は,トラベリングセールスマン問題の本質的な$k$-nearest性から導かれる初歩的かつパラメータフリーなヒートマップが,複雑なヒートマップの性能に匹敵するか,あるいは超えることを示した。
論文 参考訳(メタデータ) (2024-11-14T07:13:08Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Discovering Mathematical Formulas from Data via GPT-guided Monte Carlo
Tree Search [13.136507215114722]
シンボル回帰のための新しいアルゴリズムSR-GPTを紹介する。
モンテカルロ木探索(MCTS)とGPT(Generative Pre-Trained Transformer)を統合している。
論文 参考訳(メタデータ) (2024-01-24T07:47:04Z) - Monte Carlo Tree Search in the Presence of Transition Uncertainty [33.40823938089618]
本稿では,モデルと実際の環境の相違が,標準MCTSによる性能劣化を引き起こすことを示す。
我々は、MCTSフレームワーク内でより堅牢なアルゴリズムである不確実性適応MCTS(UA-MCTS)を開発した。
UCBを適応させるために不確実性情報を加えると、通常の UCB よりも後悔の束縛が強くなることを示す。
論文 参考訳(メタデータ) (2023-12-18T17:02:27Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Monte Carlo Tree Search for high precision manufacturing [55.60116686945561]
我々は、専門家ベースのシミュレータを使用し、MCTSのデフォルトポリシーを適用して製造プロセスに対処する。
一般的な理由は、プロセスの効率的なシミュレータが存在しないことや、MCTSをプロセスの複雑な規則に適用する際の問題があることである。
論文 参考訳(メタデータ) (2021-07-28T14:56:17Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。