Fugu-MT 論文翻訳(概要): Lookahead Pathology in Monte-Carlo Tree Search

論文の概要: Lookahead Pathology in Monte-Carlo Tree Search

arxiv url: http://arxiv.org/abs/2212.05208v1
Date: Sat, 10 Dec 2022 05:13:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 17:41:35.563114
Title: Lookahead Pathology in Monte-Carlo Tree Search
Title（参考訳）: モンテカルロ木探索におけるルックアヘッド病理
Authors: Khoi P. N. Nguyen and Raghuram Ramanujan
Abstract要約: 数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介した。理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。
参考スコア（独自算出の注目度）: 1.8275108630751844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monte-Carlo Tree Search (MCTS) is an adversarial search paradigm that first found prominence with its success in the domain of computer Go. Early theoretical work established the game-theoretic soundness and convergence bounds for Upper Confidence bounds applied to Trees (UCT), the most popular instantiation of MCTS; however, there remain notable gaps in our understanding of how UCT behaves in practice. In this work, we address one such gap by considering the question of whether UCT can exhibit lookahead pathology -- a paradoxical phenomenon first observed in Minimax search where greater search effort leads to worse decision-making. We introduce a novel family of synthetic games that offer rich modeling possibilities while remaining amenable to mathematical analysis. Our theoretical and experimental results suggest that UCT is indeed susceptible to pathological behavior in a range of games drawn from this family.
Abstract（参考訳）: Monte-Carlo Tree Search (MCTS) は、コンピュータ Go の領域で最初に成功した逆探索パラダイムである。初期の理論的研究は、木(UCT)に適用されるゲーム理論の健全性と収束境界を確立したが、UCTが実際にどのように振る舞うかという我々の理解には大きなギャップが残っている。そこで本研究では,uctが表向きの病理学を呈するかどうかを考察し,検索努力の増大が意思決定の悪化につながるミニマックス探索で最初に観察されたパラドックス現象について考察する。数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介する。理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。

関連論文リスト

Variance-Aware Prior-Based Tree Policies for Monte Carlo Tree Search [0.0]
モンテカルロ木探索(MCTS)は強化学習(RL)に大きな影響を与えた Inverse-RPO は,任意の UCB から事前ベース UCT を体系的に導出する一般的な手法である。実験により、これらの分散に注意した事前ベースUCTは、追加の計算コストを発生させることなく、PUCTを複数のベンチマークで上回ることを示した。
論文参考訳（メタデータ） (2025-12-25T12:25:26Z)
Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。 RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。 RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文参考訳（メタデータ） (2025-11-10T18:25:26Z)
VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。 VARは、推論プロセスを2つの重要な段階に分解する。我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文参考訳（メタデータ） (2025-10-21T13:18:44Z)
Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-11T03:29:18Z)
Inference-time Scaling of Diffusion Models through Classical Search [54.529322629644376]
本稿では,局所的およびグローバルな探索を編成し,生成空間を効率的にナビゲートする汎用フレームワークを提案する。我々は,計画,オフライン強化学習,画像生成など,さまざまな課題領域に対するアプローチを評価した。その結果,古典探索は拡散モデルにおける推論時間スケーリングの原理的かつ実践的な基礎を提供することを示した。
論文参考訳（メタデータ） (2025-05-29T16:22:40Z)
Accelerating Large Language Model Reasoning via Speculative Search [59.48276891032373]
本稿では,大規模言語モデル(LLM)推論を著しく高速化する新しいSpec Searchフレームワークを提案する。具体的には、SpecSearchは小さなモデルを使用して、思考とトークンのレベルで大きなモデルと戦略的に協力する。 SpecSearchの主要な柱は、大きなモデルの出力よりも品質が低い考えを効果的にフィルタリングする、新しい品質保存の拒絶メカニズムである。
論文参考訳（メタデータ） (2025-05-03T12:14:08Z)
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文参考訳（メタデータ） (2025-04-07T13:51:06Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文参考訳（メタデータ） (2024-08-03T13:37:40Z)
Monte Carlo Tree Search with Boltzmann Exploration [16.06815496704043]
本稿では,Boltzmann Tree Search(BTS)とDENTS(Desaying ENtropy Tree-Search)を紹介する。我々のアルゴリズムは、Goのゲームを含むいくつかのベンチマーク領域で一貫したハイパフォーマンスを示している。
論文参考訳（メタデータ） (2024-04-11T13:25:35Z)
Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文参考訳（メタデータ） (2023-07-25T12:33:53Z)
Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning [1.6574413179773757]
我々は,MAB文献のより詳細な理論的理解が,既存の計画アルゴリズムの改善に役立つことを示す。本稿では, UCB1-Normal bandit を用いた MCTS/THTS アルゴリズムである GreedyUCT-Normal を提案する。
論文参考訳（メタデータ） (2023-05-16T22:46:37Z)
Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文参考訳（メタデータ） (2023-03-05T00:57:49Z)
Epistemic Monte Carlo Tree Search [5.624791703748109]
深層探査における探索の不確かさを考慮し, 深層探査に利用するために, EMCTS(Epistemic MCTS)を導入する。アセンブリ言語 sc subleq でコードを記述するという難易度の高いタスクにおいて,本手法と組み合わせた AZ は,ベースライン AZ よりもはるかに高いサンプリング効率を実現する。
論文参考訳（メタデータ） (2022-10-21T09:59:15Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)
Probabilistic DAG Search [29.47649645431227]
探索空間の潜伏構造を利用して探索木間で情報を共有するための確率的フレームワークを開発する。我々は、Tic-Tac-Toeの既存の非確率的代替品と特徴選択アプリケーションとを比較検討するアルゴリズムを実証的に見出した。
論文参考訳（メタデータ） (2021-06-16T11:35:19Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。 Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文参考訳（メタデータ） (2021-03-26T02:42:38Z)
Active Inference Tree Search in Large POMDPs [0.0]
POMDPsにおける新しい計画手法--Active Inference Tree Search (AcT)について紹介する。 AcTは、神経科学(Active Inference)における主要な計画理論の規範的性格と生物学的リアリズムと、AIにおける木探索法のスケーラビリティを組み合わせたものである。シミュレーションの結果、AcTはサンプリングベース手法に挑戦する二分木、適応探索を必要とする問題、そしてAcTが最先端のPOMDPソリューションを再現する大規模POMDP問題「RockSample」をうまくナビゲートしていることがわかった。
論文参考訳（メタデータ） (2021-03-25T14:17:09Z)
Convex Regularization in Monte-Carlo Tree Search [41.11958980731047]
モンテカルロ木探索(MCTS)における一般凸正則化器の利用に関する統一理論を導入する。我々は,ポリシー更新の相対エントロピーに基づいて,MCTSの新たな正規化バックアップ演算子を導入するための理論的枠組みを利用する。我々は,AlphaGoとAlphaZeroで提案された演算子を,次元性や分岐係数の増大の問題について実験的に評価した。
論文参考訳（メタデータ） (2020-07-01T11:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。