論文の概要: MSCR: Exploring the Vulnerability of LLMs' Mathematical Reasoning Abilities Using Multi-Source Candidate Replacement
- arxiv url: http://arxiv.org/abs/2511.08055v1
- Date: Wed, 12 Nov 2025 01:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.616448
- Title: MSCR: Exploring the Vulnerability of LLMs' Mathematical Reasoning Abilities Using Multi-Source Candidate Replacement
- Title(参考訳): MSCR:マルチソース候補置換を用いたLLMの数学的推論能力の脆弱性探索
- Authors: Zhishen Sun, Guang Dai, Haishan Ye,
- Abstract要約: マルチソース候補置換に基づく自動逆攻撃手法であるMSCRを提案する。
GSM8KとMATH500ベンチマークを用いてLLMの大規模実験を行う。
1つの単語だけを含むわずかな摂動でさえ、全てのモデルの精度を著しく低下させる。
- 参考スコア(独自算出の注目度): 28.350371282079845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs demonstrate performance comparable to human abilities in complex tasks such as mathematical reasoning, but their robustness in mathematical reasoning under minor input perturbations still lacks systematic investigation. Existing methods generally suffer from limited scalability, weak semantic preservation, and high costs. Therefore, we propose MSCR, an automated adversarial attack method based on multi-source candidate replacement. By combining three information sources including cosine similarity in the embedding space of LLMs, the WordNet dictionary, and contextual predictions from a masked language model, we generate for each word in the input question a set of semantically similar candidates, which are then filtered and substituted one by one to carry out the attack. We conduct large-scale experiments on LLMs using the GSM8K and MATH500 benchmarks. The results show that even a slight perturbation involving only a single word can significantly reduce the accuracy of all models, with the maximum drop reaching 49.89% on GSM8K and 35.40% on MATH500, while preserving the high semantic consistency of the perturbed questions. Further analysis reveals that perturbations not only lead to incorrect outputs but also substantially increase the average response length, which results in more redundant reasoning paths and higher computational resource consumption. These findings highlight the robustness deficiencies and efficiency bottlenecks of current LLMs in mathematical reasoning tasks.
- Abstract(参考訳): LLMは、数学的推論のような複雑なタスクにおける人間の能力に匹敵する性能を示すが、小さな入力摂動下での数学的推論における頑健さは体系的な研究を欠いている。
既存の手法は、スケーラビリティの制限、セマンティックな保存の弱さ、高コストに悩まされている。
そこで本稿では,マルチソース候補置換に基づく自動逆攻撃手法であるMSCRを提案する。
LLMの埋め込み空間におけるコサイン類似性、WordNet辞書、およびマスク付き言語モデルからの文脈予測を含む3つの情報ソースを組み合わせることで、入力質問の各単語に対して意味的に類似した候補のセットを生成し、それらをフィルタして1つずつ置換して攻撃を実行する。
GSM8KとMATH500ベンチマークを用いてLLMの大規模実験を行う。
その結果、単一の単語のみを含むわずかな摂動でさえ、すべてのモデルの精度を著しく低下させ、最大降下は GSM8K で49.89%、MATH500 で35.40% に達し、摂動された質問のセマンティック一貫性を保った。
さらなる分析により、摂動は誤った出力をもたらすだけでなく、平均応答長を大幅に増加させ、より冗長な推論経路とより高い計算資源消費をもたらすことが明らかになった。
これらの結果は、数学的推論タスクにおける現在のLLMの堅牢性欠陥と効率のボトルネックを浮き彫りにした。
関連論文リスト
- Ask, Clarify, Optimize: Human-LLM Agent Collaboration for Smarter Inventory Control [11.796330722859574]
エンド・ツー・エンドの問題解決者としてのLLMの導入は,有意義な「ハロシン化税」を課していることを示す。
本稿では,数学的計算から意味論的推論を厳密に分離するハイブリッドエージェントフレームワークを提案する。
本研究は, LLMを, 厳密な解法ベースのポリシーを非専門家に利用できるようにする自然言語インタフェースとして位置づけた。
論文 参考訳(メタデータ) (2025-12-31T21:45:54Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - SciDA: Scientific Dynamic Assessor of LLMs [18.120612887031598]
LLM(Large Language Models)推論機能により、科学的問題を解決することができる。
既存のベンチマークでは、データ汚染のリスクに直面するか、関連する規律が欠如している。
SciDAは,オリンピックレベルの数値計算問題を1万個以上含む,多分野のベンチマークである。
論文 参考訳(メタデータ) (2025-06-15T16:57:14Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Automatic Robustness Stress Testing of LLMs as Mathematical Problem Solvers [13.40970017743291]
大規模言語モデル(LLM)は、様々な推論集約的なタスクにおいて優れたパフォーマンスを達成している。
LLMはロバスト性の問題に直面する可能性があり、いくつかの単純な推論タスクで予期せず失敗する。
本稿では,従来の意味を保ちつつも LLM に失敗する可能性のある数学的問題変種を生成するための新しいフレームワークである Automatic Robustness Checker (AR-Checker) を提案する。
論文 参考訳(メタデータ) (2025-06-05T13:42:39Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。
その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文 参考訳(メタデータ) (2025-05-25T07:37:34Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。