論文の概要: How Well Do LLMs Perform on the Simplest Long-Chain Reasoning Tasks: An Empirical Study on the Equivalence Class Problem
- arxiv url: http://arxiv.org/abs/2605.06882v1
- Date: Thu, 07 May 2026 19:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.580536
- Title: How Well Do LLMs Perform on the Simplest Long-Chain Reasoning Tasks: An Empirical Study on the Equivalence Class Problem
- Title(参考訳): 最も単純な長鎖推論課題におけるLLMの性能について--等価クラス問題に関する実証的研究
- Authors: Chun Zheng, Lianlong Wu, Bingqian Li, Lvting Liu, Yi Zhou,
- Abstract要約: 我々は,最も単純な長鎖推論タスクにおいて,大規模言語モデルの性能を評価する。
非推論モデルはECPに失敗するが、推論モデルは大幅に改善されているが、この問題を完全に解くのに苦戦している。
- 参考スコア(独自算出の注目度): 5.006638589584725
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) have achieved great improvements in recent years. Nevertheless, it still remains unclear how good LLMs are for reasoning tasks, especially for long-chain ones. In this paper, we evaluate LLMs' performance on the simplest yet long-chain reasoning task, namely the Equivalence Class Problem (ECP), i.e., determining whether two variables are equal given a set of randomly generated equivalence relations. We consider both reasoning and non-reasoning representative LLMs over a large variety of problem instances, ranging over different numbers of variables, connectivity probabilities, prompts, and other factors. The experimental results show that non-reasoning LLMs fail ECP, while reasoning models are significantly better but still struggle to completely solve this problem. Interestingly, considering various connectivity probabilities with a fixed number of variables, we observe that, for non-reasoning models, the hardest problem instances coincide with the phase transition point of ln n/(n-1), suggesting the chaos of the problem; in contrast, for reasoning models, the hardest ones coincide with the biggest diameter, suggesting the reasoning difficulty of the problem.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年大きな改善を遂げています。
それでも、LLMがタスク、特にロングチェーンのタスクに対してどの程度優れているかは、いまだに不明である。
本稿では,最も単純な長鎖推論タスク,すなわち等価クラス問題(ECP)において,LLMの性能を評価する。
我々は、様々な変数、接続確率、プロンプト、その他の要因にまたがる様々な問題インスタンスに対して、推論と非推論の両方を考察する。
実験の結果,非共振型LCMはECPに失敗する一方で,推論モデルの方が優れているが,この問題を完全に解くのに苦慮していることがわかった。
興味深いことに、一定数の変数を持つ様々な接続確率を考慮すると、非推論モデルでは、最も難しい問題インスタンスは、問題のカオスを示唆するln n/(n-1)の相転移点と一致し、対照的に、最も難しいものは最大の直径と一致し、問題の理由の難しさが示唆される。
関連論文リスト
- Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - A Knapsack by Any Other Name: Presentation impacts LLM performance on NP-hard problems [64.05451567422342]
自然言語で表現されたNPハード問題の集合であるEveryday Hard Optimization Problems (EHOP) のデータセットを紹介する。
EHOPには、コンピュータサイエンスの教科書(例えば、グラフカラー化)で見られる問題の定式化が含まれている。
複数のプロンプト戦略にまたがる最先端のLCMは、実生活や逆転よりも正確な教科書問題を解くことができる。
論文 参考訳(メタデータ) (2025-02-19T14:39:59Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。