論文の概要: LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2605.16675v1
- Date: Fri, 15 May 2026 22:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.904467
- Title: LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning
- Title(参考訳): LinAlg-Bench: LLM数学的推論における構造的故障モードの法医学的ベンチマーク
- Authors: Shradha Agarwal, Deepak Rajbhar, Tariq J,
- Abstract要約: LinAlg-Benchは、構造化線形代数計算における10のフロンティア大言語モデルを評価する診断ベンチマークである。
ベンチマークは、6600モデルのアウトプットを徹底的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LinAlg-Bench, a diagnostic benchmark evaluating 10 frontier large language models on structured linear algebra computation across a strict dimensional gradient of 3x3, 4x4, and 5x5 matrices. Spanning 9 task types and 660 SymPy-certified problems, the benchmark exhaustively evaluates 6,600 model outputs. Beyond binary accuracy, LinAlg-Bench introduces a three-stage automated forensic pipeline classifying 1,156 failures into ten primary error tags with fine-grained subtypes, revealing that LLM mathematical failure is not random but structurally constrained by algorithm type and matrix dimension. Our central finding is a sharp behavioral threshold at 4x4 scale: below it, models fail through execution errors -- sign tracking failures, arithmetic drift, and parity errors; above it, failure transitions to computational abandonment, with models fabricating responses through tool roleplay, constraint-consistent confabulation, and structured hallucination rather than attempting computation. This fabrication-to-abandonment transition is near-universal across all model tiers and architectures, suggesting a working memory limit rather than a knowledge gap, supported by three scale-emergent error types absent at 3x3 but present at 4x4 and 5x5. We further show that solution strategy rigidity is a near-perfect predictor of 5x5 determinant accuracy, document constraint-aware confabulation as a novel structured hallucination failure mode, and release all data, model outputs, error labels, and judge pipeline publicly.
- Abstract(参考訳): 我々は,3x3,4x4,5x5行列の厳密な次元勾配にまたがる構造化線形代数計算において,10のフロンティア大言語モデルを評価するための診断ベンチマークであるLinAlg-Benchを紹介する。
9つのタスクタイプと660のSymPy認定問題に対処し、ベンチマークは6600のモデルアウトプットを抜本的に評価した。
バイナリ精度以外にも、LinAlg-Benchは1,156の故障を10の一次エラータグに分類する3段階の自動法医学パイプラインを導入し、LLMの数学的失敗はランダムではなく、アルゴリズムタイプと行列次元によって構造的に制約されていることを明らかにした。
我々の中心的な発見は、4x4スケールのシャープな行動しきい値であり、その下にあるモデルは実行エラーで失敗する -- 追跡エラー、算術ドリフト、パリティエラーに署名する。
この製造から廃止への移行は、すべてのモデル層とアーキテクチャでほぼ共通であり、知識ギャップよりも作業メモリの限界が示唆され、3x3では存在しないが4x4と5x5では存在しない3つのスケール・エマージェントエラータイプがサポートされている。
さらに, 解法戦略の剛性は, 5x5決定精度のほぼ完全な予測器であり, 構造化幻覚障害モードとしての文書制約を意識した調和であり, 全データ, モデル出力, エラーラベル, および判定パイプラインを公然に解放することを示す。
関連論文リスト
- MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling [18.671643433145846]
テキストと視覚の問題仕様から数学的定式化と実行可能なソルバコードの両方を構築する必要があるベンチマーク設定であるマルチモーダル最適化モデルを導入する。
フレームワークをMM-OptBenchとしてインスタンス化し,6つの最適化ファミリ,26のサブカテゴリ,3つの構造的難易度にまたがる780のソルバ検証インスタンスをベンチマークした。
論文 参考訳(メタデータ) (2026-05-12T14:07:36Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations [2.5782420501870296]
CoT(Chain-of-Thought)プロンプトは,Large Language Models(LLMs)から推論を引き出す基礎技術として登場した。
本稿は,5種類のCoT摂動型に対するロバスト性に関する総合的な実証的評価を示す: textitMathError, UnitConversion, Sycophancy, SkippedSteps, textitExtraSteps。
論文 参考訳(メタデータ) (2026-02-11T03:11:30Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - LIDL: LLM Integration Defect Localization via Knowledge Graph-Enhanced Multi-Agent Analysis [16.217842423570055]
大規模言語モデル統合ソフトウェアにおける欠陥ローカライゼーションのためのマルチエージェントフレームワークLIDLを提案する。
LIDLを105のGitHubリポジトリと16のエージェントベースシステムから収集した146の現実世界の欠陥インスタンスで評価した。
論文 参考訳(メタデータ) (2026-01-09T05:47:59Z) - UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits [43.59555184340113]
マルチツールチェーンをエンド・ツー・エンドのモデルと統一された検証後のステージで置き換える軽量なデータパイプラインを導入する。
スケーラブルな品質管理のために、7Bのデュアルタスクエキスパートモデル textbfQwen-Verify をトレーニングし、効率的な故障検出と命令再カプセル化を行う。
このパイプラインは、さまざまな基本的な複雑な編集タスクにまたがる10Mスケールのデータセットである textbfUnicEdit-10M を生成する。
論文 参考訳(メタデータ) (2025-12-01T17:45:44Z) - Demonstrating dynamic surface codes [118.67046728951689]
曲面符号の3つの時間力学的実装を実験的に実証した。
まず、曲面コードを六角格子上に埋め込んで、キュービットあたりの結合を4つから3つに減らした。
第二に、サーフェスコードを歩き、データの役割を交換し、各ラウンドごとにキュービットを測定し、蓄積した非計算エラーの組込み除去による誤り訂正を達成する。
第3に、従来のCNOTの代わりにiSWAPゲートを用いた表面コードを実現し、追加のオーバーヘッドを伴わずに、エラー訂正のための実行可能なゲートセットを拡張した。
論文 参考訳(メタデータ) (2024-12-18T21:56:50Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。