論文の概要: Chain-in-Tree: Back to Sequential Reasoning in LLM Tree Search
- arxiv url: http://arxiv.org/abs/2509.25835v2
- Date: Wed, 01 Oct 2025 04:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.80549
- Title: Chain-in-Tree: Back to Sequential Reasoning in LLM Tree Search
- Title(参考訳): チェーン・イン・トレー:LLM木探索における逐次推論への回帰
- Authors: Xinzhe Li,
- Abstract要約: テスト時のスケーリングにより、言語モデルは推論時に追加の計算を割り当てることで、ロングホライズン推論タスクを改善することができる。
CiTは,各ステップで分岐するのではなく,検索中に分岐するタイミングを適応的に決定するフレームワークである。
我々はCitをツリー思考(ToTBS)、ReST-MCTS、RAPの3つの代表的なLCMチェーンに統合し、GSM8KとMath500で評価する。
- 参考スコア(独自算出の注目度): 4.12237459236889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling enables large language models (LLMs) to improve performance on long-horizon reasoning tasks by allocating additional compute at inference. Tree-search-based approaches achieve state-of-the-art results in this setting, but they are notoriously inefficient, often an order of magnitude slower than simpler iterative methods. We introduce Chain-in-Tree (CiT), a plug-in framework that adaptively decides when to branch during search rather than branching at every step. CiT relies on lightweight Branching Necessity (BN) evaluation methods: BN-DP (Direct Prompting), where an auxiliary LLM directly judges whether a step requires branching, and BN-SC (Self-Consistency), which clusters multiple candidate actions to estimate agreement. We integrate CiT into three representative LLM-in-the-loop tree search frameworks: Tree of Thoughts (ToT-BS), ReST-MCTS, and RAP, and evaluate across GSM8K and Math500. Our results show that: (1) BN-DP consistently reduces token generation, model invocations, and runtime by 75-85 percent across all settings, with negligible accuracy loss and sometimes accuracy gains; (2) BN-SC typically yields substantial savings (up to 80 percent) but shows instability in 1-4 out of 14 settings, caused by a small subset of examples that produce very long reasoning steps; (3) the quality of auxiliary LLMs is critical, not only the BN evaluator in BN-DP, but also the models used in BN-SC for clustering and equivalence checking. When these roles are filled by smaller LLMs, performance degrades. Importantly, BN-SC does not require LLMs in domains with deterministic action spaces, where clustering can be done programmatically. We also provide a theoretical guarantee that BN-DP never increases LLM invocations relative to the baseline and release a unified implementation of CiT across ToT-BS, ReST-MCTS, and RAP to facilitate reproducibility and extension.
- Abstract(参考訳): テストタイムスケーリングにより、大規模言語モデル(LLM)は、推論時に追加の計算を割り当てることで、長距離推論タスクのパフォーマンスを向上させることができる。
木探索に基づくアプローチは、この設定で最先端の結果を得るが、それらは非常に非効率であり、しばしば単純な反復法よりも桁違いに遅い。
プラグインフレームワークであるChain-in-Tree(CiT)を導入し、各ステップで分岐するのではなく、検索中にいつ分岐するかを適応的に決定する。
CiT は BN-DP (Direct Prompting) と BN-SC (Self-Consistency) という軽量な分岐要求 (BN) 評価手法に依存している。
我々はCitを3つの代表的なLLM-in-the-loop木探索フレームワークに統合する: Tree of Thoughts (ToT-BS), ReST-MCTS, RAP, そしてGSM8KとMath500で評価する。
その結果,(1)BN-DP はトークン生成,モデル呼び出し,ランタイムを常に75~85パーセント削減し,その精度が低下し,精度が低下することがある。(2)BN-SC は,通常,非常に長い推論ステップをもたらす例の小さなサブセットによって,14 つの設定のうち 1-4 の不安定性を示す。(3) BN-DP の BN 評価器だけでなく,BN-SC のクラスタリングや同値チェックに使用されるモデルも重要である。
これらの役割がより小さなLSMで満たされると、性能は低下する。
重要なことは、BN-SCは、クラスタリングをプログラム的に行うことができる決定論的アクション空間を持つ領域のLLMを必要としないことである。
また,BN-DPがLLM呼び出しをベースラインに対して増加させず,再現性と拡張を容易にするため,ToT-BS,ReST-MCTS,RAPにまたがるCitTの統一実装をリリースすることを理論的に保証する。
関連論文リスト
- Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency [3.6199690908942546]
自己一貫性(SC)は複数の推論チェーンを並列に生成し、多数決によって最終回答を選択する。
Slim-SCは、思考レベルでチェーン間の類似性を用いて冗長なチェーンを識別・除去するステップワイズプルーニング戦略である。
実験によると、Slim-SCはR1-Distillで、それぞれ最大45%と26%のレイテンシとKVC使用量を削減している。
論文 参考訳(メタデータ) (2025-09-17T14:00:51Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。
PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。