論文の概要: Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks
- arxiv url: http://arxiv.org/abs/2606.03606v2
- Date: Wed, 03 Jun 2026 12:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.63364
- Title: Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks
- Title(参考訳): 自動数値リマッピング攻撃によるLLM算術推論一般化の検証
- Authors: Malia Barker, Bishal Lakha, Edoardo Serra, Francesco Gullo,
- Abstract要約: 算術語問題に対する数値再マッピング攻撃を自動生成するアルゴリズムを提案する。
我々は,GSM8K,MAWPS,MultiArith上でDeepSeek-R1(70B),Gemma4(31B),GPT-OSS(120B)を評価した。
- 参考スコア(独自算出の注目度): 2.6659012768342145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is to delegate computation to code. Yet models are still often used in settings where they must reason directly from natural language, and trustworthy models should solve small-number arithmetic word problems without external tools. Prior work shows that LLMs are sensitive to numerical variation: a model may solve an original problem but fail on structurally similar variants requiring the same reasoning procedure with different numbers. We ask whether this fragility persists under a stricter setting involving small, schema-preserving numeric changes that retain the original reasoning program and avoid large-number stress tests. We introduce an automatic algorithm for generating numeric-remapping attacks on arithmetic word problems. Unlike template-based perturbation methods requiring manual schemas or constraints, our approach derives problem-specific symbolic representations, generates constrained numeric remappings, recomputes gold answers, and realizes transformed questions through deterministic edits guided by LLM-generated edit plans. Stage-wise validation and a high-confidence audit retain reliable attacks, making the pipeline scalable with limited human intervention. We evaluate DeepSeek-R1 (70B), Gemma4 (31B), and GPT-OSS (120B) on GSM8K, MAWPS, and MultiArith. On GSM8K, completed runs show conditional accuracy drops of 12.16 to 25.82 percentage points. MAWPS and MultiArith are far more stable, with most attacked accuracies near or above 98%. These results show that numeric-remapping robustness depends strongly on dataset structure: GSM8K remains sensitive even when reasoning programs are preserved and answers are recomputed, while shorter, more regular datasets are more robust.
- Abstract(参考訳): 大規模言語モデルは算術的推論ベンチマークにおいて高い性能を達成し、算術的不安定性に対する一般的な応答は、計算をコードに委譲することである。
しかし、モデルはしばしば自然言語から直接推論しなければならない設定で使われており、信頼できるモデルは、外部ツールを使わずに、小数の算術語問題を解く必要がある。
モデルは元の問題を解くが、異なる数で同じ推論手順を必要とする構造的に類似した変種では失敗する。
この脆弱性が、元の推論プログラムを維持し、大規模なストレステストを避けるために、スキーマを保存する数値変更を含む、より厳密な設定の下で持続するかどうかを問う。
算術語問題に対する数値再マッピング攻撃を自動生成するアルゴリズムを提案する。
手動のスキーマや制約を必要とするテンプレートベースの摂動法とは異なり、本手法は問題固有の記号表現を導出し、制約付き数値再マッピングを生成し、金の回答を再計算し、LLM生成した編集計画によって導かれる決定論的編集によって変換された質問を実現する。
ステージワイドの検証と高信頼度監査は、信頼性の高い攻撃を維持し、パイプラインを人間の介入を限定してスケーラブルにする。
我々は,GSM8K,MAWPS,MultiArith上でDeepSeek-R1(70B),Gemma4(31B),GPT-OSS(120B)を評価した。
GSM8Kでは、コンディションの精度は12.16から25.82ポイント低下した。
MAWPSとMultiArithはより安定しており、ほとんどの攻撃は98%以上である。
GSM8Kは、推論プログラムが保存され、答えが再計算される一方で、より短い正規データセットはより堅牢である。
関連論文リスト
- SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Do Large Language Models Truly Grasp Addition? A Rule-Focused Diagnostic Using Two-Integer Arithmetic [21.014229380679975]
大規模言語モデル(LLM)は高度な数学のベンチマークでは印象的な結果を得るが、基本的な算術的なタスクでは失敗することがある。
基本演算規則を真に把握したのか、それとも単にパターンマッチングに依存しているのかを考察する。
モデルでは高い数値精度を達成できるが、これらの診断は体系的に失敗する。
論文 参考訳(メタデータ) (2025-04-07T16:57:10Z) - Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges [0.0]
GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。
また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T09:53:10Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。