論文の概要: MSCR: Exploring the Vulnerability of LLMs' Mathematical Reasoning Abilities Using Multi-Source Candidate Replacement
- arxiv url: http://arxiv.org/abs/2511.08055v1
- Date: Wed, 12 Nov 2025 01:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.616448
- Title: MSCR: Exploring the Vulnerability of LLMs' Mathematical Reasoning Abilities Using Multi-Source Candidate Replacement
- Title(参考訳): MSCR:マルチソース候補置換を用いたLLMの数学的推論能力の脆弱性探索
- Authors: Zhishen Sun, Guang Dai, Haishan Ye,
- Abstract要約: マルチソース候補置換に基づく自動逆攻撃手法であるMSCRを提案する。
GSM8KとMATH500ベンチマークを用いてLLMの大規模実験を行う。
1つの単語だけを含むわずかな摂動でさえ、全てのモデルの精度を著しく低下させる。
- 参考スコア(独自算出の注目度): 28.350371282079845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs demonstrate performance comparable to human abilities in complex tasks such as mathematical reasoning, but their robustness in mathematical reasoning under minor input perturbations still lacks systematic investigation. Existing methods generally suffer from limited scalability, weak semantic preservation, and high costs. Therefore, we propose MSCR, an automated adversarial attack method based on multi-source candidate replacement. By combining three information sources including cosine similarity in the embedding space of LLMs, the WordNet dictionary, and contextual predictions from a masked language model, we generate for each word in the input question a set of semantically similar candidates, which are then filtered and substituted one by one to carry out the attack. We conduct large-scale experiments on LLMs using the GSM8K and MATH500 benchmarks. The results show that even a slight perturbation involving only a single word can significantly reduce the accuracy of all models, with the maximum drop reaching 49.89% on GSM8K and 35.40% on MATH500, while preserving the high semantic consistency of the perturbed questions. Further analysis reveals that perturbations not only lead to incorrect outputs but also substantially increase the average response length, which results in more redundant reasoning paths and higher computational resource consumption. These findings highlight the robustness deficiencies and efficiency bottlenecks of current LLMs in mathematical reasoning tasks.
- Abstract(参考訳): LLMは、数学的推論のような複雑なタスクにおける人間の能力に匹敵する性能を示すが、小さな入力摂動下での数学的推論における頑健さは体系的な研究を欠いている。
既存の手法は、スケーラビリティの制限、セマンティックな保存の弱さ、高コストに悩まされている。
そこで本稿では,マルチソース候補置換に基づく自動逆攻撃手法であるMSCRを提案する。
LLMの埋め込み空間におけるコサイン類似性、WordNet辞書、およびマスク付き言語モデルからの文脈予測を含む3つの情報ソースを組み合わせることで、入力質問の各単語に対して意味的に類似した候補のセットを生成し、それらをフィルタして1つずつ置換して攻撃を実行する。
GSM8KとMATH500ベンチマークを用いてLLMの大規模実験を行う。
その結果、単一の単語のみを含むわずかな摂動でさえ、すべてのモデルの精度を著しく低下させ、最大降下は GSM8K で49.89%、MATH500 で35.40% に達し、摂動された質問のセマンティック一貫性を保った。
さらなる分析により、摂動は誤った出力をもたらすだけでなく、平均応答長を大幅に増加させ、より冗長な推論経路とより高い計算資源消費をもたらすことが明らかになった。
これらの結果は、数学的推論タスクにおける現在のLLMの堅牢性欠陥と効率のボトルネックを浮き彫りにした。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Automatic Robustness Stress Testing of LLMs as Mathematical Problem Solvers [13.40970017743291]
大規模言語モデル(LLM)は、様々な推論集約的なタスクにおいて優れたパフォーマンスを達成している。
LLMはロバスト性の問題に直面する可能性があり、いくつかの単純な推論タスクで予期せず失敗する。
本稿では,従来の意味を保ちつつも LLM に失敗する可能性のある数学的問題変種を生成するための新しいフレームワークである Automatic Robustness Checker (AR-Checker) を提案する。
論文 参考訳(メタデータ) (2025-06-05T13:42:39Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。
その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文 参考訳(メタデータ) (2025-05-25T07:37:34Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。