論文の概要: Chain-in-Tree: Back to Sequential Reasoning in LLM Tree Search
- arxiv url: http://arxiv.org/abs/2509.25835v3
- Date: Sat, 18 Oct 2025 04:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:10.637081
- Title: Chain-in-Tree: Back to Sequential Reasoning in LLM Tree Search
- Title(参考訳): チェーン・イン・トレー:LLM木探索における逐次推論への回帰
- Authors: Xinzhe Li,
- Abstract要約: Chain-in-Tree (CiT)は、すべてのステップで拡張するのではなく、検索中にいつ分岐するかを決定するフレームワークである。
GSM8KとMath500のトークン生成、モデル呼び出し、ランタイムの75~85%の削減を実現している。
- 参考スコア(独自算出の注目度): 4.12237459236889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling improves large language models (LLMs) on long-horizon reasoning tasks by allocating more compute at inference. LLM Inference via Tree Search (LITS) methods achieve strong performance but are highly inefficient, often running an order of magnitude slower than iterative approaches. We propose Chain-in-Tree (CiT), a plug-in framework that decides when to branch during search rather than expanding at every step. CiT introduces lightweight Branching Necessity (BN) evaluations: BN-DP (Direct Prompting), where an auxiliary LLM judges branching needs, and BN-SC (Self-Consistency), which clusters candidate actions to assess agreement. Integrated into Tree of Thoughts, ReST-MCTS, and RAP, BN-DP achieves 75-85% reductions in token generation, model calls, and runtime on GSM8K and Math500, with often negligible or no accuracy loss. BN-SC typically yields substantial savings (up to 80%) generally but shows instability in 1-4 out of 14 settings, caused by a small subset of examples that produce extremely long reasoning steps. We theoretically prove that BN-DP never increases policy invocations and release both modular LITS implementations and a lightweight CiT function applicable across all LITS variants. The full codebase is publicly available at https://github.com/xinzhel/chain_in_tree.
- Abstract(参考訳): テストタイムスケーリングは、推論時により多くの計算を割り当てることで、長期の推論タスクにおける大きな言語モデル(LLM)を改善する。
木探索 (LITS) 法によるLLM推論は高い性能を達成するが、非常に非効率であり、しばしば反復的なアプローチよりも桁違いに遅い。
CiT(Chain-in-Tree)は,すべてのステップで拡張するのではなく,検索中にいつ分岐するかを決定するプラグインフレームワークである。
CiTは、BN-DP(Direct Prompting)、BN-SC(Self-Consistency)、BN-DP(Self-Consistency)といった軽量なブランチの必要性評価を導入している。
BN-DPはTree of Thoughts、ReST-MCTS、RAPに統合され、GSM8KとMath500のトークン生成、モデル呼び出し、ランタイムの75~85%の削減を実現している。
BN-SCは通常、かなりの貯蓄(80%まで)を生じるが、非常に長い推論ステップを生み出す少数の例によって引き起こされる14のセッティングのうち1-4で不安定を示す。
理論上,BN-DP がポリシー実行を増加させることはなく,モジュール型 LITS と軽量な CiT 関数の両方を全ての LITS 変種に適用できることを示す。
完全なコードベースはhttps://github.com/xinzhel/chain_in_treeで公開されている。
関連論文リスト
- Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency [3.6199690908942546]
自己一貫性(SC)は複数の推論チェーンを並列に生成し、多数決によって最終回答を選択する。
Slim-SCは、思考レベルでチェーン間の類似性を用いて冗長なチェーンを識別・除去するステップワイズプルーニング戦略である。
実験によると、Slim-SCはR1-Distillで、それぞれ最大45%と26%のレイテンシとKVC使用量を削減している。
論文 参考訳(メタデータ) (2025-09-17T14:00:51Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。
PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。