論文の概要: ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving
- arxiv url: http://arxiv.org/abs/2505.12717v1
- Date: Mon, 19 May 2025 05:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.420234
- Title: ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving
- Title(参考訳): ToTRL: パズル解決によるLLMツリーの解き放つ可能性
- Authors: Haoyuan Wu, Xueyi Chen, Rui Ming, Jilong Gao, Shoubo Hu, Zhuolun He, Bei Yu,
- Abstract要約: Tree-of-Thoughts (ToT) は、ツリー構造内の探索として推論をモデル化することによって、概念的により高度なアプローチを提供する。
ToTRLは、逐次CoT戦略に基づく並列ToT戦略の開発においてLLMを導くように設計されている。
ToTQwen3-8Bモデルは,複雑な推論タスクの性能向上と推論効率の向上を実現している。
- 参考スコア(独自算出の注目度): 4.987786842464663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate significant reasoning capabilities, particularly through long chain-of-thought (CoT) processes, which can be elicited by reinforcement learning (RL). However, prolonged CoT reasoning presents limitations, primarily verbose outputs due to excessive introspection. The reasoning process in these LLMs often appears to follow a trial-and-error methodology rather than a systematic, logical deduction. In contrast, tree-of-thoughts (ToT) offers a conceptually more advanced approach by modeling reasoning as an exploration within a tree structure. This reasoning structure facilitates the parallel generation and evaluation of multiple reasoning branches, allowing for the active identification, assessment, and pruning of unproductive paths. This process can potentially lead to improved performance and reduced token costs. Building upon the long CoT capability of LLMs, we introduce tree-of-thoughts RL (ToTRL), a novel on-policy RL framework with a rule-based reward. ToTRL is designed to guide LLMs in developing the parallel ToT strategy based on the sequential CoT strategy. Furthermore, we employ LLMs as players in a puzzle game during the ToTRL training process. Solving puzzle games inherently necessitates exploring interdependent choices and managing multiple constraints, which requires the construction and exploration of a thought tree, providing challenging tasks for cultivating the ToT reasoning capability. Our empirical evaluations demonstrate that our ToTQwen3-8B model, trained with our ToTRL, achieves significant improvement in performance and reasoning efficiency on complex reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に強化学習(RL)によって引き起こされる長いチェーン・オブ・シント(CoT)プロセスを通じて、重要な推論能力を示す。
しかし、長いCoT推論は、主に過度なイントロスペクションによる冗長なアウトプットの制限を提示する。
これらのLSMの推論過程は、しばしば、体系的で論理的な推論よりも、試行錯誤の方法論に従っているように見える。
対照的に、ツリー・オブ・思想(ToT)は、ツリー構造内の探索としての推論をモデル化することによって、概念的により高度なアプローチを提供する。
この推論構造は、複数の推論枝の並列生成と評価を容易にし、非生産経路の能動的同定、評価、プルーニングを可能にする。
このプロセスはパフォーマンスの向上とトークンコストの削減につながる可能性がある。
LLMの長いCoT能力に基づいて、ルールベースの報酬を持つ新しいオンラインRLフレームワークであるtree-of- Thoughts RL(ToTRL)を導入する。
ToTRLは、逐次CoT戦略に基づく並列ToT戦略の開発においてLLMを導くように設計されている。
さらに,ToTRL学習過程において,パズルゲームにおいてLLMをプレイヤーとして採用する。
パズルゲームを解決するには、本質的には相互依存的な選択の探索と複数の制約の管理が必要であり、それは思考木の構築と探索を必要とし、ToT推論能力の育成に困難なタスクを提供する。
我々のToTQwen3-8Bモデルは、ToTRLで訓練され、複雑な推論タスクにおいて、性能と推論効率が大幅に向上することを示した。
関連論文リスト
- Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。
私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文 参考訳(メタデータ) (2025-02-04T22:08:20Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - On the Empirical Complexity of Reasoning and Planning in LLMs [29.588100727466976]
Chain-of-Thought(CoT)、tree-of-Thought(ToT)、および関連するテクニックは、大規模言語モデル(LLM)を用いた複雑な推論タスクにおいて、実際に驚くほどうまく機能する。
この研究は、実験ケーススタディを実行し、パフォーマンスの利点を機械学習における十分に確立されたサンプルと計算の複雑さの原則に結びつけることによって、根本的な理由を追求する。
論文 参考訳(メタデータ) (2024-04-17T03:34:27Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。