論文の概要: Thinker: Training LLMs in Hierarchical Thinking for Deep Search via Multi-Turn Interaction
- arxiv url: http://arxiv.org/abs/2511.07943v1
- Date: Wed, 12 Nov 2025 01:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.561173
- Title: Thinker: Training LLMs in Hierarchical Thinking for Deep Search via Multi-Turn Interaction
- Title(参考訳): 思考:多軸相互作用による深層探索のための階層的思考におけるLLMの訓練
- Authors: Jun Xu, Xinkai Du, Yu Ao, Peilong Zhao, Yang Li, Ling Zhong, Lin Yuan, Zhongpu Bo, Xiaorui Wang, Mengshu Sun, Zhengke Gui, Dalong Zhang, Zhaoyang Wang, Qiwei Wang, Yangyang Hou, Zhiying Yin, Haofen Wang, Huajun Chen, Lei Liang, Jun Zhou,
- Abstract要約: Thinkerはマルチターンインタラクションによるディープ検索のための階層的思考モデルである。
複素問題を独立に解ける部分確率に分解する。
サブプロブレム間の依存関係は、これらの論理関数を介してパラメータとして渡される。
- 参考スコア(独自算出の注目度): 57.67217258741752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient retrieval of external knowledge bases and web pages is crucial for enhancing the reasoning abilities of LLMs. Previous works on training LLMs to leverage external retrievers for solving complex problems have predominantly employed end-to-end reinforcement learning. However, these approaches neglect supervision over the reasoning process, making it difficult to guarantee logical coherence and rigor. To address these limitations, we propose Thinker, a hierarchical thinking model for deep search through multi-turn interaction, making the reasoning process supervisable and verifiable. It decomposes complex problems into independently solvable sub-problems, each dually represented in both natural language and an equivalent logical function to support knowledge base and web searches. Concurrently, dependencies between sub-problems are passed as parameters via these logical functions, enhancing the logical coherence of the problem-solving process. To avoid unnecessary external searches, we perform knowledge boundary determination to check if a sub-problem is within the LLM's intrinsic knowledge, allowing it to answer directly. Experimental results indicate that with as few as several hundred training samples, the performance of Thinker is competitive with established baselines. Furthermore, when scaled to the full training set, Thinker significantly outperforms these methods across various datasets and model sizes. The source code is available at https://github.com/OpenSPG/KAG-Thinker.
- Abstract(参考訳): 外部知識ベースと Web ページの効率的な検索は LLM の推論能力の向上に不可欠である。
複雑な問題を解決するために外部レトリバーを活用するLLMのトレーニング作業は、主にエンドツーエンドの強化学習を採用してきた。
しかし、これらのアプローチは推論過程の監督を無視しており、論理的一貫性と厳密性を保証することは困難である。
これらの制約に対処するため,多ターンインタラクションによる深層探索のための階層的思考モデルであるThinkerを提案する。
複雑な問題を独立に解けるサブプロブレムに分解し、それぞれが自然言語と等価論理関数の両方で表現され、知識ベースとWeb検索をサポートする。
同時に、サブプロブレム間の依存関係はこれらの論理関数を介してパラメータとして渡され、問題解決プロセスの論理的一貫性が向上する。
不要な外部探索を避けるために,サブプロブレムがLLMの内在的知識内にあるかどうかを確認する知識境界決定を行い,直接答えることを可能にする。
実験結果から,数百のトレーニングサンプルで,Thinkerの性能は確立したベースラインと競合することがわかった。
さらに、完全なトレーニングセットにスケールすると、Thinkerはさまざまなデータセットやモデルサイズでこれらのメソッドよりも大幅にパフォーマンスが向上します。
ソースコードはhttps://github.com/OpenSPG/KAG-Thinkerで入手できる。
関連論文リスト
- KAG-Thinker: Interactive Thinking and Deep Reasoning in LLMs via Knowledge-Augmented Generation [35.555200530999365]
我々は、KAG-Thinkerを導入し、KAGをマルチターン対話型思考と、専用パラメータライト大言語モデル(LLM)を利用した深い推論フレームワークにアップグレードする。
提案手法は,複雑な問題を解くための構造化思考プロセスを構築し,推論過程の論理的一貫性と文脈的整合性を高める。
論文 参考訳(メタデータ) (2025-06-21T14:58:53Z) - LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:40:47Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。