論文の概要: Selective Adversarial Attacks on LLM Benchmarks
- arxiv url: http://arxiv.org/abs/2510.13570v1
- Date: Wed, 15 Oct 2025 14:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.695786
- Title: Selective Adversarial Attacks on LLM Benchmarks
- Title(参考訳): LLMベンチマークにおける選択的逆攻撃
- Authors: Ivan Dubrovsky, Anastasia Orlova, Illarion Iov, Nina Gubina, Irena Gureeva, Alexey Zaytsev,
- Abstract要約: 広範に使用されているベンチマークMMLUに対する選択的敵攻撃について検討した。
選択的な敵攻撃が存在し、相対的なランクを実質的に変更できることがわかった。
本研究の結果は摂動を意識した報告とロバストネス評価を動機づけるものである。
- 参考スコア(独自算出の注目度): 1.6307653659652344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarking outcomes increasingly govern trust, selection, and deployment of LLMs, yet these evaluations remain vulnerable to semantically equivalent adversarial perturbations. Prior work on adversarial robustness in NLP has emphasized text attacks that affect many models equally, leaving open the question of whether it is possible to selectively degrade or enhance performance while minimally affecting other models. We formalize this problem and study selective adversarial attacks on MMLU - a widely used benchmark designed to measure a language model's broad general knowledge and reasoning ability across different subjects. Using canonical attacks integrated into TextAttack framework, we introduce a protocol for selectivity assessment, develop a custom constraint to increase selectivity of attacks and propose a surrogate-LLM pipeline that generates selective perturbations. Empirically, we find that selective adversarial attacks exist and can materially alter relative rankings, challenging the fairness, reproducibility, and transparency of leaderboard-driven evaluation. Our results motivate perturbation-aware reporting and robustness diagnostics for LLM evaluation and demonstrate that even subtle edits can shift comparative judgments.
- Abstract(参考訳): ベンチマークの結果は LLM の信頼、選択、配置をますます支配するが、これらの評価は意味論的に等価な逆転摂動に弱いままである。
NLPにおける敵対的堅牢性に関する以前の研究は、多くのモデルに等しく影響を及ぼすテキスト攻撃を強調しており、他のモデルに最小限の影響を与えながら、パフォーマンスを選択的に低下または向上できるかどうかという疑問を解き放っている。
我々はこの問題を形式化し、MMLUに対する選択的敵攻撃について研究する。MMLUは言語モデルの幅広い一般的な知識と推論能力を測定するために広く使われているベンチマークである。
TextAttackフレームワークに統合された標準攻撃を用いて、選択性評価のためのプロトコルを導入し、攻撃の選択性を高めるためのカスタム制約を開発し、選択的摂動を生成するサロゲート-LLMパイプラインを提案する。
経験的に、選択的敵攻撃が存在し、相対的なランクを実質的に変更し、公正性、再現性、およびリーダーボードによる評価の透明性に挑戦することができる。
以上の結果から,LLM評価における摂動認識と頑健性診断の動機となり,微妙な編集でも比較判定が変更できることが示唆された。
関連論文リスト
- On Robustness and Reliability of Benchmark-Based Evaluation of LLMs [6.121856629864516]
LLM(Large Language Models)の有効性は通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価される。
実世界のアプリケーションは言語的多様性を伴い、同じ質問やクエリの様々なリワードでモデルの有効性を維持する必要がある。
そこで我々は,LLMの頑健さをベンチマーク問題に言い換えて体系的に評価し,ベンチマークに基づく評価がモデル能力の信頼性を評価できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-09-04T08:43:27Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。
トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。