Fugu-MT 論文翻訳(概要): SafeMath: Inference-time Safety improves Math Accuracy

論文の概要: SafeMath: Inference-time Safety improves Math Accuracy

arxiv url: http://arxiv.org/abs/2603.25201v1
Date: Thu, 26 Mar 2026 09:06:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:48.203767
Title: SafeMath: Inference-time Safety improves Math Accuracy
Title（参考訳）: SafeMath:推論時の安全性が数学の正確性を改善する
Authors: Sagnik Basu, Subhrajit Mitra, Aman Juneja, Somnath Banerjee, Rima Hazra, Animesh Mukherjee,
Abstract要約: 数学の質問、特に自然言語の物語としてフレーム化された質問は、偏見、非倫理的、心理的に有害なコンテンツを伝播するための微妙な媒体として機能することを示す。安全なアライメント技術であるSafeMathを提案し、メンテナンス中に有害な出力を削減し、場合によっては数学的推論性能を改善する。
参考スコア（独自算出の注目度）: 7.757751847128239
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research points toward LLMs being manipulated through adversarial and seemingly benign inputs, resulting in harmful, biased, or policy-violating outputs. In this paper, we study an underexplored issue concerning harmful and toxic mathematical word problems. We show that math questions, particularly those framed as natural language narratives, can serve as a subtle medium for propagating biased, unethical, or psychologically harmful content, with heightened risks in educational settings involving children. To support a systematic study of this phenomenon, we introduce ToxicGSM, a dataset of 1.9k arithmetic problems in which harmful or sensitive context is embedded while preserving mathematically well-defined reasoning tasks. Using this dataset, we audit the behaviour of existing LLMs and analyse the trade-offs between safety enforcement and mathematical correctness. We further propose SafeMath -- a safety alignment technique that reduces harmful outputs while maintaining, and in some cases improving, mathematical reasoning performance. Our results highlight the importance of disentangling linguistic harm from math reasoning and demonstrate that effective safety alignment need not come at the cost of accuracy. We release the source code and dataset at https://github.com/Swagnick99/SafeMath/tree/main.
Abstract（参考訳）: 最近の研究は、LLMが敵対的かつ良心的な入力によって操作され、有害、偏見、またはポリシー違反の出力をもたらすことを示唆している。本稿では,有害かつ有害な数学的単語問題に関する未解決問題について検討する。数学の質問、特に自然言語の物語として表現された質問は、偏見のある、非倫理的で、心理的に有害なコンテンツを伝播するための微妙な媒体として機能し、子どもを巻き込む教育環境のリスクが高まることを示した。この現象の体系的な研究を支援するために、数学的に明確に定義された推論タスクを保ちながら有害またはセンシティブなコンテキストを埋め込んだ1.9kの算術問題のデータセットであるToxicGSMを紹介する。このデータセットを用いて、既存のLCMの挙動を監査し、安全執行と数学的正当性の間のトレードオフを分析する。さらに,安全アライメント技術であるSafeMathを提案し,メンテナンス中に有害な出力を低減し,場合によっては数学的推論性能を向上する。本研究は, 言語障害を数学的推論から切り離すことの重要性を強調し, 有効安全アライメントが正確さを犠牲にしないことを示すものである。ソースコードとデータセットはhttps://github.com/Swagnick99/SafeMath/tree/mainで公開しています。

関連論文リスト

MSCR: Exploring the Vulnerability of LLMs' Mathematical Reasoning Abilities Using Multi-Source Candidate Replacement [28.350371282079845]
マルチソース候補置換に基づく自動逆攻撃手法であるMSCRを提案する。 GSM8KとMATH500ベンチマークを用いてLLMの大規模実験を行う。 1つの単語だけを含むわずかな摂動でさえ、全てのモデルの精度を著しく低下させる。
論文参考訳（メタデータ） (2025-11-11T09:56:19Z)
Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation of LLM [13.066526969147501]
大規模言語モデル(LLM)は、デジタルプラットフォーム全体でコンテンツ作成に革命をもたらした。 LLMは、コンテンツ生成、質問と回答(Q&A)、プログラミング、コード推論といった有益なアプリケーションを可能にする。また、意図的または故意に有害、攻撃的、偏見のあるコンテンツを発生させることで深刻なリスクを生じさせる。
論文参考訳（メタデータ） (2025-08-07T18:42:16Z)
Evaluating Intermediate Reasoning of Code-Assisted Large Language Models for Mathematics [15.695635219034328]
我々は,コード支援型LCM生成プログラムを,数理推論タスクに応答して詳細に解析する。この結果から, モデルの性能が, 問題の解法として実装された論理に大きく影響していることが示唆された。
論文参考訳（メタデータ） (2025-04-24T15:34:24Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文参考訳（メタデータ） (2020-10-12T22:22:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。