論文の概要: Large Language Models' Reasoning Stalls: An Investigation into the Capabilities of Frontier Models
- arxiv url: http://arxiv.org/abs/2505.19676v1
- Date: Mon, 26 May 2025 08:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.282913
- Title: Large Language Models' Reasoning Stalls: An Investigation into the Capabilities of Frontier Models
- Title(参考訳): 大言語モデルの推論ストール:フロンティアモデルの能力に関する研究
- Authors: Lachlan McGinness, Peter Baumgartner,
- Abstract要約: 我々は2023年12月から2024年8月にかけて,PRONTOQAスチームローラーの推理問題に対するState of the Artモデルの性能評価を行った。
以上の結果から, LLM推論能力の向上は9カ月間に停滞していることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical methods to examine the capability of Large Language Models (LLMs) to use Automated Theorem Prover (ATP) reasoning strategies are studied. We evaluate the performance of State of the Art models from December 2023 and August 2024 on PRONTOQA steamroller reasoning problems. For that, we develop methods for assessing LLM response accuracy and correct answer correlation. Our results show that progress in improving LLM reasoning abilities has stalled over the nine month period. By tracking completion tokens, we show that almost all improvement in reasoning ability since GPT-4 was released can be attributed to either hidden system prompts or the training of models to automatically use generic Chain of Thought prompting strategies. Among the ATP reasoning strategies tried, we found that current frontier LLMs are best able to follow the bottom-up (also known as forward-chaining) strategy. A low positive correlation was found between an LLM response containing correct reasoning and arriving at the correct conclusion.
- Abstract(参考訳): 大規模言語モデル(LLMs)を用いたATP推論手法の実証的検討を行った。
我々は2023年12月から2024年8月にかけて,PRONTOQAスチームローラーの推理問題に対するState of the Artモデルの性能評価を行った。
そこで我々は,LLM応答精度と正解相関性を評価する手法を開発した。
以上の結果から, LLM推論能力の向上は9カ月間に停滞していることが明らかとなった。
コンプリートトークンの追跡により,GPT-4のリリース以降の推論能力のほぼすべての改善は,システムプロンプトの隠蔽や,思考のジェネリックチェインを自動使用するためのモデルのトレーニングに起因していることが示された。
ATP推論戦略の中で,現在のフロンティアLSMはボトムアップ戦略(フォワードチェアリングとも呼ばれる)に従うのが最適であることがわかった。
正しい推論を含むLLM応答と正しい結論に到達したLLM応答との間には,低い正の相関が認められた。
関連論文リスト
- Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Steamroller Problems: An Evaluation of LLM Reasoning Capability with Automated Theorem Prover Strategies [0.18416014644193066]
GPT4, GPT3.5 TurboおよびGoogleのGeminiモデルの性能をスチームローラー領域の問題に対して評価した。
ATP推論戦略を用いた場合のモデルの性能はワンショットの思考に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-07-17T22:49:23Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。