論文の概要: Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM
- arxiv url: http://arxiv.org/abs/2505.13890v1
- Date: Tue, 20 May 2025 03:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.663663
- Title: Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM
- Title(参考訳): LLMのマインドをマッピングする: 推論LLMのグラフベース解析
- Authors: Zhen Xiong, Yujun Cai, Zhecheng Li, Yiwei Wang,
- Abstract要約: 大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.181783720439563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in test-time scaling have enabled Large Language Models (LLMs) to display sophisticated reasoning abilities via extended Chain-of-Thought (CoT) generation. Despite their potential, these Reasoning LLMs (RLMs) often demonstrate counterintuitive and unstable behaviors, such as performance degradation under few-shot prompting, that challenge our current understanding of RLMs. In this work, we introduce a unified graph-based analytical framework for better modeling the reasoning processes of RLMs. Our method first clusters long, verbose CoT outputs into semantically coherent reasoning steps, then constructs directed reasoning graphs to capture contextual and logical dependencies among these steps. Through comprehensive analysis across models and prompting regimes, we reveal that structural properties, such as exploration density, branching, and convergence ratios, strongly correlate with reasoning accuracy. Our findings demonstrate how prompting strategies substantially reshape the internal reasoning structure of RLMs, directly affecting task outcomes. The proposed framework not only enables quantitative evaluation of reasoning quality beyond conventional metrics but also provides practical insights for prompt engineering and the cognitive analysis of LLMs. Code and resources will be released to facilitate future research in this direction.
- Abstract(参考訳): テスト時間スケーリングの最近の進歩により、Large Language Models (LLMs) は拡張されたChain-of-Thought (CoT) 生成を通じて洗練された推論能力を表示できるようになった。
これらの推論LDM(Reasoning LLMs, RLMs)は, 数発のプロンプトによる性能劣化など, 直感的かつ不安定な動作を示すことが多い。
本研究では,RLMの推論過程をモデル化するための統一的なグラフベース分析フレームワークを提案する。
提案手法はまず,意味論的に一貫性のある推論ステップにCoT出力を冗長にクラスタリングし,これらのステップ間の文脈的および論理的依存関係をキャプチャするための有向推論グラフを構築した。
モデル間の包括的解析とシステマティクスの促進により、探索密度、分岐率、収束率などの構造的特性が推論精度と強く相関していることを明らかにする。
本研究は, RLMの内部推論構造が, タスク結果にどのように影響するかを示すものである。
提案フレームワークは,従来の測定基準を超えて推論品質を定量的に評価するだけでなく,工学的手法やLLMの認知的分析の実践的洞察も提供する。
コードとリソースは、この方向への将来の研究を促進するためにリリースされます。
関連論文リスト
- A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。
我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。
我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文 参考訳(メタデータ) (2025-04-02T23:51:27Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。
本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T03:12:59Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。