論文の概要: Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition
- arxiv url: http://arxiv.org/abs/2504.03930v1
- Date: Fri, 04 Apr 2025 20:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:22.583717
- Title: Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition
- Title(参考訳): 大規模言語モデルは推論に習熟したか? -SAT相転移による評価-
- Authors: Rishi Hazra, Gabriele Venturato, Pedro Zuidberg Dos Martires, Luc De Raedt,
- Abstract要約: 大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。
近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
- 参考スコア(独自算出の注目度): 11.422434149376478
- License:
- Abstract: Large Language Models (LLMs) have been touted as AI models possessing advanced reasoning abilities. In theory, autoregressive LLMs with Chain-of-Thought (CoT) can perform more serial computations to solve complex reasoning tasks. However, recent studies suggest that, despite this capacity, LLMs do not truly learn to reason but instead fit on statistical features. To study the reasoning capabilities in a principled fashion, we adopt a computational theory perspective and propose an experimental protocol centered on 3-SAT -- the prototypical NP-complete problem lying at the core of logical reasoning and constraint satisfaction tasks. Specifically, we examine the phase transitions in random 3-SAT and characterize the reasoning abilities of state-of-the-art LLMs by varying the inherent hardness of the problem instances. By comparing DeepSeek R1 with other LLMs, our findings reveal two key insights (1) LLM accuracy drops significantly on harder instances, suggesting all current models struggle when statistical shortcuts are unavailable (2) Unlike other LLMs, R1 shows signs of having learned the underlying reasoning. Following a principled experimental protocol, our study moves beyond the benchmark-driven evidence often found in LLM reasoning research. Our findings highlight important gaps and suggest clear directions for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。
しかし、最近の研究では、この能力にもかかわらず、LSMは理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論理的推論と制約満足度タスクの中核に位置するNP完全問題である 3-SAT を中心にした実験プロトコルを提案する。
具体的には、ランダムな3-SATの相転移を検証し、問題インスタンスの固有の硬さを変化させることで、最先端のLCMの推論能力を特徴付ける。
本研究は,DeepSeek R1を他のLLMと比較することにより,(1)LLMの精度が難易度に著しく低下していること,(2)他のLLMと異なり,R1は基礎となる推論を学習した兆候を示す。
LLM推論研究でよく見られるベンチマーク駆動型エビデンスを超えて,本研究は原則的な実験的プロトコルに従っている。
本研究は重要なギャップを浮き彫りにして,今後の研究の方向性を示唆するものである。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Can Large Language Models Reason? A Characterization via 3-SAT [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
近年の研究では、LLMは、しばしばショートカットを使用した真の推論を回避し、懐疑論を引き起こすことが示されている。
本稿では,論理的推論と制約満足度タスクの中核に位置するNP完全問題である 3-SAT を中心にした実験プロトコルを提案する。
論文 参考訳(メタデータ) (2024-08-13T21:54:10Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。