論文の概要: Revisiting Tree Search for LLMs: Gumbel and Sequential Halving for Budget-Scalable Reasoning
- arxiv url: http://arxiv.org/abs/2603.21162v1
- Date: Sun, 22 Mar 2026 10:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.267063
- Title: Revisiting Tree Search for LLMs: Gumbel and Sequential Halving for Budget-Scalable Reasoning
- Title(参考訳): LLMにおける木探索の再検討:予算スケーラブル推論のためのガムベルとシークエンシャルハービング
- Authors: Leonid Ugadiarov, Yuri Kuratov, Aleksandr Panov, Alexey Skrynnik,
- Abstract要約: 本稿ではGumbel AlphaZero MCTSの適応版であるReSCALEについて述べる。
ReSCALEはGSM8Kで58.4%、Game24で85.3%に達する。
- 参考スコア(独自算出の注目度): 53.06065010530373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural tree search is a powerful decision-making algorithm widely used in complex domains such as game playing and model-based reinforcement learning. Recent work has applied AlphaZero-style tree search to enhance the reasoning capabilities of Large Language Models (LLMs) during inference, but we find that this approach suffers from a scaling failure: on GSM8K and Game24, accuracy drops as the search budget increases. In this paper, we present ReSCALE, an adaptation of Gumbel AlphaZero MCTS that replaces Dirichlet noise and PUCT selection with Gumbel sampling and Sequential Halving, restoring monotonic scaling without changes to the model or its training. ReSCALE reaches 58.4\% on GSM8K and 85.3\% on Game24 at budgets where the baseline degrades. Ablations confirm that Sequential Halving is the primary driver of the improvement.
- Abstract(参考訳): ニューラルツリー探索はゲームプレイやモデルベース強化学習といった複雑な領域で広く使われている強力な意思決定アルゴリズムである。
近年,Large Language Models (LLMs) の推論能力を高めるためにAlphaZeroスタイルのツリーサーチを適用しているが,GSM8K や Game24 では,探索予算の増加とともに精度が低下する。
本稿では,Gumbel AlphaZero MCTSの適応版であるReSCALEを提案する。
ReSCALEはGSM8Kで58.4\%、Game24で85.3\%に達する。
アブレーションは、シークエンシャル・ハルヴィングが改善の原動力であることを確認する。
関連論文リスト
- Learning to Guide Local Search for MPE Inference in Probabilistic Graphical Models [7.287294240824019]
確率的グラフィカルモデル(PGM)におけるほとんどの確率的説明(MPE)推論は、根本的なが計算的に難しい問題である。
本稿では、繰り返しクエリー方式における局所探索を改善するためのニューラルネットワークのアモート化フレームワークを提案する。
理論的な直観リンクによる距離低減移動選択を行い, 隣り合う選択時の約束を改良する。
論文 参考訳(メタデータ) (2026-02-01T22:43:28Z) - SIGMA: Refining Large Language Model Reasoning via Sibling-Guided Monte Carlo Augmentation [38.37231157929935]
Monte Carlo Tree Searchは、高品質な連鎖データを生成するための強力なテクニックである。
従来の手法では、探索木から上位の軌道のみを保持するのが一般的である。
我々は,これら捨てられた兄弟ノードを再統合し,LSM推論を洗練するための新しいフレームワークであるSIGMAを提案する。
論文 参考訳(メタデータ) (2025-06-06T18:55:16Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。