論文の概要: Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2603.20730v1
- Date: Sat, 21 Mar 2026 09:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.060759
- Title: Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks
- Title(参考訳): Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks
- Authors: Fan Huang,
- Abstract要約: CoT(Chain-of-Thought)は線形トレースを生成し、ToT(Tree-of-Thought)は分岐探索を実行する。
タイプノードとエッジを持つ有向グラフとして推論をモデル化するフレームワークであるNetwork-of-Thought (NoT)を提案する。
- 参考スコア(独自算出の注目度): 5.523132953818281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing prompting paradigms structure LLM reasoning in limited topologies: Chain-of-Thought (CoT) produces linear traces, while Tree-of-Thought (ToT) performs branching search. Yet complex reasoning often requires merging intermediate results, revisiting hypotheses, and integrating evidence from multiple sources. We propose Network-of-Thought (NoT), a framework that models reasoning as a directed graph with typed nodes and edges, guided by a heuristic-based controller policy. Across four benchmarks (GSM8K, Game of 24, HotpotQA, ProofWriter) and three models (GPT-4o-mini, Llama-3.3-70B-Instruct, Qwen2.5-72B-Instruct), we investigate when network topology outperforms chain or tree structures, whether LLM-generated heuristics can guide graph-based reasoning search, and the computation-accuracy tradeoff across topologies, evaluating each method on accuracy, topology simplicity, and token efficiency. Our results show that CoT remains effective for sequential tasks with GPT-4o-mini (89.5\% on GSM8K), while NoT surpasses ToT on multi-hop reasoning (91.0\% vs.\ 88.0\% on HotpotQA with LLM-as-Judge). With 72B open-source models, NoT achieves the highest accuracy on GSM8K (91.5\%), and Qwen2.5-72B achieves the best multi-hop QA result overall (91.7\% on HotpotQA). Self-generated controller heuristics outperform fixed and random strategies on logical reasoning, with uncertainty-only weighting achieving 57.0\% on ProofWriter. We also find that evaluation methodology significantly impacts method rankings: string-match underestimates all methods on open-ended QA, with the largest gap for NoT, a pattern consistent across all three models (14--18 percentage point gap on HotpotQA).
- Abstract(参考訳): CoT(Chain-of-Thought)は線形トレースを生成し、ToT(Tree-of-Thought)は分岐探索を実行する。
しかし複雑な推論は、しばしば中間結果の融合、仮説の再検討、複数の情報源からの証拠の統合を必要とする。
我々は,階層型ノードとエッジを持つ有向グラフとして推論をモデル化するフレームワークであるNetwork-of-Thought (NoT)を提案する。
4つのベンチマーク(GSM8K, Game of 24 HotpotQA, ProofWriter)と3つのモデル(GPT-4o-mini, Llama-3.3-70B-Instruct, Qwen2.5-72B-Instruct, ネットワークトポロジがチェーンやツリー構造より優れているか, LLM生成ヒューリスティックスがグラフベースの推論探索をガイドできるか, およびトポロジ間の計算精度のトレードオフについて検討し, 各手法の精度, トポロジ単純性, トークン効率を評価する。
以上の結果から,CoTはGPT-4o-mini(GSM8Kでは89.5\%)の逐次処理に有効であり,NoTはマルチホップ推論(91.0\%)でToTを上回っていることがわかった。
LLM-as-Judge による HotpotQA の 88.0\% である。
72Bのオープンソースモデルでは、NoTはGSM8K(91.5\%)で最高精度を達成し、Qwen2.5-72Bは全体として最高のマルチホップQA(HotpotQAでは91.7\%)を達成した。
自己生成コントローラヒューリスティックスは、論理的推論における固定的およびランダムな戦略よりも優れており、不確実性のみの重み付けはProofWriter上で57.0\%に達する。
文字列マッチはオープンエンドのQAにおいて全てのメソッドを過小評価しており、NoTの最大のギャップは、3つのモデル(HotpotQAでは14-18のポイントギャップ)で一貫したパターンである。
関連論文リスト
- Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Markovian Transformers for Informative Language Modeling [1.172865818448696]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
推論オートエンコーダとして理解可能なマルコフ言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。