論文の概要: AI-rithmetic
- arxiv url: http://arxiv.org/abs/2602.10416v1
- Date: Wed, 11 Feb 2026 01:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.374094
- Title: AI-rithmetic
- Title(参考訳): AI-rithmetic
- Authors: Alex Bie, Travis Dick, Alex Kulesza, Prabhakar Raghavan, Vinod Raman, Sergei Vassilvitskii,
- Abstract要約: 現代のAIシステムは、国際数学コンペでメダル獲得に成功している。
基本的な算術では頑固に悪いままであり、2つの数を加えるという単純なタスクで一貫して失敗する。
これらのモデルによるほとんどのエラーは、高度に解釈可能であり、誤った調整または正しく実行できないという原因による可能性があることを示す。
- 参考スコア(独自算出の注目度): 22.733918825449148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI systems have been successfully deployed to win medals at international math competitions, assist with research workflows, and prove novel technical lemmas. However, despite their progress at advanced levels of mathematics, they remain stubbornly bad at basic arithmetic, consistently failing on the simple task of adding two numbers. We present a systematic investigation of this phenomenon. We demonstrate empirically that all frontier models suffer significantly degraded accuracy for integer addition as the number of digits increases. Furthermore, we show that most errors made by these models are highly interpretable and can be attributed to either operand misalignment or a failure to correctly carry; these two error classes explain 87.9%, 62.9%, and 92.4% of Claude Opus 4.1, GPT-5, and Gemini 2.5 Pro errors, respectively. Finally, we show that misalignment errors are frequently related to tokenization, and that carrying errors appear largely as independent random failures.
- Abstract(参考訳): 現代のAIシステムは、国際数学コンペでメダルを獲得し、研究ワークフローを支援し、新しい技術的補題を証明するために、うまく展開されてきた。
しかし、高度な数学レベルでの進歩にもかかわらず、それらは基本的な算術において頑固に悪いままであり、2つの数を加えるという単純なタスクに一貫して失敗する。
我々はこの現象を体系的に研究する。
我々は、全てのフロンティアモデルが桁数が増加するにつれて整数加算の精度が著しく低下していることを実証的に示す。
さらに、これらのモデルによるほとんどのエラーは、非常に解釈可能であり、オペランドのミスアライメントまたは正しく実行できない失敗によるものとみなすことができ、これら2つのエラークラスはそれぞれ、クロードオプス4.1, GPT-5, Gemini 2.5 Proエラーの87.9%、62.9%、92.4%を説明できる。
最後に,誤アライメントエラーはトークン化とよく関連し,エラーの搬送は独立したランダムなエラーとして現れることを示す。
関連論文リスト
- Can Large Reasoning Models Improve Accuracy on Mathematical Tasks Using Flawed Thinking? [0.0]
思考の連鎖(CoT)の促進は、大きな言語モデルにおける数学的推論の中心となっている。
故意に欠陥のある推論トレースのトレーニングが、そのようなエラーを検出して回復するモデルを教えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2025-12-18T21:20:21Z) - CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning [3.609560822507327]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。
本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。
分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-10-31T01:31:58Z) - RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows [8.700422995850152]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。
本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。
分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-10-10T05:47:40Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Pre-trained Language Models Learn Remarkably Accurate Representations of Numbers [4.123456708238846]
既存の研究は、モデルの表現から数値の値を求めることには成功しなかった。
本稿では,入力埋め込みから数値をほぼ完全精度で復号する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T16:37:35Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。