論文の概要: Frontier LLMs Still Struggle with Simple Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2507.07313v1
- Date: Wed, 09 Jul 2025 22:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.219313
- Title: Frontier LLMs Still Struggle with Simple Reasoning Tasks
- Title(参考訳): シンプルな推論機能を備えたフロンティアLSM
- Authors: Alan Malek, Jiawei Ge, Jiawei Ge, Chi Jin, András György, Csaba Szepesvári,
- Abstract要約: この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
- 参考スコア(独自算出の注目度): 53.497499123166804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While state-of-the-art large language models (LLMs) demonstrate advanced reasoning capabilities-achieving remarkable performance on challenging competitive math and coding benchmarks-they also frequently fail on tasks that are easy for humans. This work studies the performance of frontier LLMs on a broad set of such "easy" reasoning problems. By extending previous work in the literature, we create a suite of procedurally generated simple reasoning tasks, including counting, first-order logic, proof trees, and travel planning, with changeable parameters (such as document length. or the number of variables in a math problem) that can arbitrarily increase the amount of computation required to produce the answer while preserving the fundamental difficulty. While previous work showed that traditional, non-thinking models can be made to fail on such problems, we demonstrate that even state-of-the-art thinking models consistently fail on such problems and for similar reasons (e.g. statistical shortcuts, errors in intermediate steps, and difficulties in processing long contexts). To further understand the behavior of the models, we introduce the unpuzzles dataset, a different "easy" benchmark consisting of trivialized versions of well-known math and logic puzzles. Interestingly, while modern LLMs excel at solving the original puzzles, they tend to fail on the trivialized versions, exhibiting several systematic failure patterns related to memorizing the originals. We show that this happens even if the models are otherwise able to solve problems with different descriptions but requiring the same logic. Our results highlight that out-of-distribution generalization is still problematic for frontier language models and the new generation of thinking models, even for simple reasoning tasks, and making tasks easier does not necessarily imply improved performance.
- Abstract(参考訳): 最先端の大規模言語モデル(LLM)は、高度な推論能力を示し、競争力のある数学やコーディングベンチマークにおいて優れたパフォーマンスを達成する一方で、人間にとって容易なタスクでもしばしば失敗する。
この研究は、このような「容易」な推論問題に対するフロンティアLSMの性能について研究する。
文献における先行研究を延長することにより、基本的困難を保ちながら解を生成するのに必要な計算量を任意に増加させることができる、変更可能なパラメータ(文書長や数学問題における変数数など)を用いて、一階述語論理、証明木、旅行計画など、手続き的に生成された一連の単純な推論タスクを作成する。
これまでの研究では、従来の非思考モデルでもそのような問題に失敗することを示したが、最先端の思考モデルでさえ、そのような問題や同様の理由(統計的ショートカット、中間ステップのエラー、長いコンテキストの処理の困難など)で一貫して失敗することを示した。
モデルの振る舞いをさらに理解するために、よく知られた数学と論理パズルの自明なバージョンからなる異なる「簡単な」ベンチマークであるunpuzzlesデータセットを導入する。
興味深いことに、現代のLLMはオリジナルのパズルを解くのに優れていますが、自明なバージョンでは失敗しがちです。
モデルが異なる記述で問題を解くことができるが、同じ論理を必要とする場合であっても、これは発生する。
この結果から,フロンティア言語モデルや新世代の思考モデルでは,単純な推論タスクであっても,アウト・オブ・ディストリビューションの一般化が依然として問題であり,タスクの容易化は必ずしも性能を必ずしも向上させるものではないことが示唆された。
関連論文リスト
- Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems? [25.352721856952655]
一階推論問題は、様々なサイズの無限個の問題インスタンスでインスタンス化することができる。
課題40のデータセットであるFCoReBenchと,さまざまなサイズの問題インスタンスを生成し,そのソリューションを自動検証して生成するスクリプトを提案する。
本稿では,LLMとシンボルソルバとプログラムインタプリタを組み合わせたSymPro-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。