論文の概要: Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs
- arxiv url: http://arxiv.org/abs/2503.15113v1
- Date: Wed, 19 Mar 2025 11:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:01.872245
- Title: Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs
- Title(参考訳): LLMのスケーリング解析
- Authors: Benjamin Estermann, Roger Wattenhofer,
- Abstract要約: 大規模言語モデルの推論の取り組みは,問題複雑性とともにどのようにスケールするかを検討する。
この結果から, 推理作業は問題の大きさに応じて規模が大きくなるが, 重大な問題にのみ対処できることが示唆された。
- 参考スコア(独自算出の注目度): 26.494798719138526
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable text generation capabilities, and recent advances in training paradigms have led to breakthroughs in their reasoning performance. In this work, we investigate how the reasoning effort of such models scales with problem complexity. We use the infinitely scalable Tents puzzle, which has a known linear-time solution, to analyze this scaling behavior. Our results show that reasoning effort scales with problem size, but only up to a critical problem complexity. Beyond this threshold, the reasoning effort does not continue to increase, and may even decrease. This observation highlights a critical limitation in the logical coherence of current LLMs as problem complexity increases, and underscores the need for strategies to improve reasoning scalability. Furthermore, our results reveal significant performance differences between current state-of-the-art reasoning models when faced with increasingly complex logical puzzles.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顕著なテキスト生成能力を示しており、最近の訓練パラダイムの進歩は、その推論性能のブレークスルーにつながっている。
本研究では,そのようなモデルによる推論の取り組みが,問題複雑性とともにどのようにスケールするかを考察する。
線形時間解を持つ無限スケールのテンツパズルを用いて、このスケーリング挙動を解析する。
この結果から, 推理作業は問題の大きさに応じて規模が大きくなるが, 重大な問題にのみ対処できることが示唆された。
このしきい値を超えると、推論の努力は増え続けず、さらに減少する可能性がある。
この観察は、問題の複雑さが増大するにつれて、現在のLLMの論理的コヒーレンスにおいて重要な制限が強調され、推論スケーラビリティを改善するための戦略の必要性が強調されている。
さらに,より複雑な論理パズルに直面する場合,現状の技術推論モデルと性能の相違が明らかとなった。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。
複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文 参考訳(メタデータ) (2025-02-07T17:05:25Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs [4.701165676405066]
関連情報を検索するだけでなく、因果推論や説明可能性の提供も重要である。
本稿では,大きな知識グラフをフィルタして原因効果エッジを強調する新しいパイプラインを提案する。
医学的質問応答タスクの実験では、一貫した利得を示し、最大10%の絶対的な改善がある。
論文 参考訳(メタデータ) (2025-01-24T19:31:06Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Pushing the Limits of Rule Reasoning in Transformers through Natural
Language Satisfiability [30.01308882849197]
本稿では,アルゴリズム推論データセットを作成するための新しい手法を提案する。
鍵となる考え方は、ハードプロポーズSAT問題の経験的なサンプリングや、言語に関する複雑性理論的な研究から洞察を得ることである。
十分なトレーニングデータを得た現在のトランスフォーマーは、結果のNLSat問題を解決するのに驚くほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-12-16T17:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。