論文の概要: Too long; didn't solve
- arxiv url: http://arxiv.org/abs/2604.07593v1
- Date: Wed, 08 Apr 2026 20:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.560731
- Title: Too long; didn't solve
- Title(参考訳): 長すぎる; 解決しなかった
- Authors: Lucía M. Cabrera, Isaac Saxton-Knight,
- Abstract要約: 本研究では,2つの構造的長さ変数,即時長と解長について検討し,モデル性能との関連性について分析する。
プロンプト長と解長はモデル間のモデル故障の増加と正の相関関係があることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical benchmarks consisting of a range of mathematics problems are widely used to evaluate the reasoning abilities of large language models, yet little is known about how their structural properties influence model behaviour. In this work, we investigate two structural length variables, prompt length and solution length, and analyse how they relate to model performance on a newly constructed adversarial dataset of expert-authored mathematics problems. We find that both prompt and solution lengths correlate positively with increased model failure across models. We also include a secondary, exploratory analysis of cross-model disagreement. Under a difficulty-adjusted normalised analysis, both variables retain weak negative associations with realised model separation, slightly stronger for prompt length. Overall, our main robust finding is that structural length is linked to empirical difficulty in this dataset.
- Abstract(参考訳): 様々な数学問題からなる数学的ベンチマークは、大きな言語モデルの推論能力を評価するために広く用いられているが、それらの構造的特性がモデル行動にどのように影響するかは分かっていない。
本研究では,2つの構造的長さ変数,即時長と解長について検討し,それらが新たに構築された専門家認可数学問題の逆数データセット上でのモデル性能とどのように関係しているかを解析する。
プロンプト長と解長はモデル間のモデル故障の増加と正の相関関係があることが判明した。
また、クロスモデル不一致の二次的、探索的分析も含んでいる。
困難に調整された正規化解析の下では、両方の変数は、実現されたモデル分離と弱い負の関係を保持し、即時長に対してわずかに強い。
全体として、構造的長さは、このデータセットにおける経験的困難と結びついていることが、我々の主要なロバストな発見である。
関連論文リスト
- Context-Length Robustness in Question Answering Models: A Comparative Empirical Study [0.0]
本稿では,SQuADとHotpotQAの2つのベンチマークを用いて,大規模言語モデルにおける文脈長頑健性の実証的研究を行った。
モデル精度を全文脈長の関数として評価し,応答を含む信号を保持しながら,無関係な文脈の量を体系的に増加させることで評価する。
その結果、コンテキスト長が増加するにつれて性能が一貫した低下を示し、マルチホップ推論タスクではシングルスパン抽出タスクよりもはるかに大きな低下が観測された。
論文 参考訳(メタデータ) (2026-03-16T17:14:05Z) - MathRobust-LV: Evaluation of Large Language Models' Robustness to Linguistic Variations in Mathematical Reasoning [0.0]
大規模言語モデルは数学のベンチマークで優れているが、それらの数学は言語的変動に頑健性をもたらす。
そこで本研究では, インストラクタが評価にまたがってどのように問題を言い換えるかを反映した, テストセットと評価手法であるMathRobust-LVを紹介する。
結果から,言語的変化に対する頑健性は基本的な課題であり,モデルに脆弱性があることが示唆された。
論文 参考訳(メタデータ) (2025-10-07T20:09:29Z) - Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Structure Learning and Parameter Estimation for Graphical Models via
Penalized Maximum Likelihood Methods [0.0]
論文では、静的なベイジアンネットワーク(BN)と、その名前が示すように時間成分を持つ連続時間ベイジアンネットワークという2つの異なるタイプのPGMについて考察する。
私たちは、PGMを学ぶための最初のステップである、真の構造を回復することに興味を持っています。
論文 参考訳(メタデータ) (2023-01-30T20:26:13Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。