論文の概要: Beyond Accuracy: Diagnosing Algebraic Reasoning Failures in LLMs Across Nine Complexity Dimensions
- arxiv url: http://arxiv.org/abs/2604.06799v1
- Date: Wed, 08 Apr 2026 08:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.419546
- Title: Beyond Accuracy: Diagnosing Algebraic Reasoning Failures in LLMs Across Nine Complexity Dimensions
- Title(参考訳): 代数的推論障害を診断するLLMの精度を超えた9つの複雑度次元
- Authors: Parth Patil, Dhruv Kumar, Yash Sinha, Murari Mandal,
- Abstract要約: 代数的推論は、大きな言語モデルにとって最も有意義なストレステストの1つである。
現在のベンチマークでは、特定の原因に障害をもたらすメカニズムを提供していません。
我々は、各因子が独立に変化し、他の因子は全て固定される9次元の枠組みを導入する。
- 参考スコア(独自算出の注目度): 8.616356693448985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algebraic reasoning remains one of the most informative stress tests for large language models, yet current benchmarks provide no mechanism for attributing failure to a specific cause. When a model fails an algebraic problem, a single accuracy score cannot reveal whether the expression was too deeply nested, the operator too uncommon, the intermediate state count too high, or the dependency chain too long. Prior work has studied individual failure modes in isolation, but no framework has varied each complexity factor independently under strict experimental control. No prior system has offered automatic generation and verification of problems of increasing complexity to track model progress over time. We introduce a nine-dimension algebraic complexity framework in which each factor is varied independently while all others are held fixed, with problem generation and verification handled by a parametric pipeline requiring no human annotation. Each dimension is grounded in a documented LLM failure mode and captures a structurally distinct aspect of algebraic difficulty, including expression nesting depth, simultaneous intermediate result count, sub-expression complexity, operator hardness, and dependent reasoning chain length. We evaluated seven instruction-tuned models spanning 8B to 235B parameters across all nine dimensions and find that working memory is the dominant scale-invariant bottleneck. Every model collapses between 20 and 30 parallel branches regardless of parameter count, pointing to a hard architectural constraint rather than a solvable capacity limitation. Our analysis further identifies a minimal yet diagnostically sufficient subset of five dimensions that together span the full space of documented algebraic failure modes, providing a complete complexity profile of a model's algebraic reasoning capacity.
- Abstract(参考訳): 代数的推論は、大きな言語モデルにとって最も有意義なストレステストの1つだが、現在のベンチマークでは、特定の原因に障害をもたらすメカニズムを提供していない。
モデルが代数的問題に失敗した場合、単一の精度スコアは、式が深くネストされているか、オペレーターが珍しいか、中間状態が高すぎるか、依存鎖が長すぎるかを明らかにすることができない。
これまでは個別の障害モードを個別に研究してきたが、厳格な実験的制御の下では、それぞれの複雑性要因を独立して変化させるフレームワークは存在しなかった。
それまでのシステムでは、時間とともにモデル進行を追跡する複雑さが増す問題の自動生成と検証を提供していなかった。
そこで我々は,各因子が独立に変化し,他の因子はすべて固定され,パラメトリックパイプラインによる問題生成と検証は人間のアノテーションを必要としない,9次元の代数的複雑性フレームワークを提案する。
各次元は文書化されたLCM故障モードで接地され、式ネスト深さ、同時中間結果数、サブ圧縮複雑性、演算子硬度、依存的推論鎖長など、代数的難易度の構造的に異なる側面を捉えている。
9次元にまたがる8Bから235Bパラメータにまたがる7つの命令調整モデルを評価し,作業記憶が主要なスケール不変のボトルネックであることを確認した。
すべてのモデルはパラメータ数に関係なく20から30の並列分岐の間で崩壊し、解決可能なキャパシティ制限ではなく、ハードアーキテクチャの制約を指し示します。
我々はさらに、文書化された代数的故障モードの全空間にまたがる5次元の最小かつ診断的に十分な部分集合を同定し、モデルの代数的推論能力の完全な複雑性プロファイルを提供する。
関連論文リスト
- Beyond Memorization: Testing LLM Reasoning on Unseen Theory of Computation Tasks [8.210112631285666]
大規模言語モデル(LLM)は、形式的な言語タスクにおいて強力なパフォーマンスを示している。
正規言語を用いた決定論的有限オートマトン (DFA) 構築のためのベンチマークを導入する。
モデルが実際の質問に対して完璧に精度を達成し、タスクに対して84-90%を達成できることを示すが、その精度は目に見えない問題に対して急激に低下する。
論文 参考訳(メタデータ) (2026-01-19T21:00:31Z) - Estimating Ising Models in Total Variation Distance [23.343281561400033]
モデルから独立して$l$の標本を与えられた場合、Isingモデルを総変分(TV)距離で$n$変数で推定する問題を考察する。
我々の主な貢献は、イジングモデルの2つの一般的なクラスに対する最大擬似等式エストリメータ(MPLE)の統一的解析である。
この結果から, 最適, 至近距離のアルゴリズムと, 様々な条件下での最適, 至近距離のサンプルの複雑性の保証が得られる。
論文 参考訳(メタデータ) (2025-11-26T03:15:41Z) - Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization [8.236500918322138]
本稿では,分散の複雑さ(複雑度OoD)の一般化を推論を定義し,測定するためのフレームワークとして提案する。
モデルは、必要最小限のソリューションの複雑さがすべてのトレーニング例の複雑さを超えるテストインスタンスのパフォーマンスを維持するときに、複雑さのOoD一般化を示す。
私たちはこの視点を,スタック全体にわたる複雑度OoDの運用を推奨する形で,実践に転換します。
論文 参考訳(メタデータ) (2025-10-06T13:08:31Z) - Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution [59.39066657300045]
CoT(Chain-of-Thought)は、問題を逐次ステップに分解することで、大きな言語モデル(LLM)の推論を促進する。
思考のシジー(Syzygy of Thoughts, SoT)は,CoTを補助的,相互関連的な推論経路を導入して拡張する新しいフレームワークである。
SoTはより深い論理的依存関係をキャプチャし、より堅牢で構造化された問題解決を可能にする。
論文 参考訳(メタデータ) (2025-04-13T13:35:41Z) - A Probabilistic Neuro-symbolic Layer for Algebraic Constraint Satisfaction [13.245011236407166]
安全クリティカルなアプリケーションでは、線形連続環境の制約の満足度が不可欠である。
非連結制約の満足度を保証する様々な近似を導入する。
この定式化は記号積分による効率的かつ正確な再正規化を可能にする。
論文 参考訳(メタデータ) (2025-03-25T08:58:04Z) - Identification and Estimation of Simultaneous Equation Models Using Higher-Order Cumulant Restrictions [5.882065571122133]
線形同時方程式モデルにおける構造パラメータの同定は長年にわたる課題である。
構造パラメータの同定には共分散証明もホワイトニングも必要ないことを示す。
私たちのフレームワークは透過的なオーバーアイデンティティテストを提供します。
論文 参考訳(メタデータ) (2025-01-12T11:27:39Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning [80.1018596899899]
ニューラルネットワークモデルは、Kolmogorov複雑性を使って形式化された、同じ好みを共有している、と我々は主張する。
実験の結果、事前訓練された言語モデルでも、低複雑さのシーケンスを生成するのが好まれることがわかった。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
論文 参考訳(メタデータ) (2023-04-11T17:22:22Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。