論文の概要: Differential Robustness in Transformer Language Models: Empirical Evaluation Under Adversarial Text Attacks
- arxiv url: http://arxiv.org/abs/2509.09706v1
- Date: Fri, 05 Sep 2025 21:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.830368
- Title: Differential Robustness in Transformer Language Models: Empirical Evaluation Under Adversarial Text Attacks
- Title(参考訳): 変換言語モデルにおける差分ロバスト性:敵対的テキスト攻撃による経験的評価
- Authors: Taniya Gidatkar, Oluwaseun Ajao, Matthew Shardlow,
- Abstract要約: RoBERTa-BaseとFlanT5は、高度な攻撃を受けた場合でも精度を保ち、優れたレジリエンスを示した。
BERT-Baseはかなりの脆弱性を示し、TextFoolerはモデルの精度を48%から3%に下げて93.75%の成功率を達成した。
- 参考スコア(独自算出の注目度): 3.3772986620114387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the resilience of large language models (LLMs) against adversarial attacks, specifically focusing on Flan-T5, BERT, and RoBERTa-Base. Using systematically designed adversarial tests through TextFooler and BERTAttack, we found significant variations in model robustness. RoBERTa-Base and FlanT5 demonstrated remarkable resilience, maintaining accuracy even when subjected to sophisticated attacks, with attack success rates of 0%. In contrast. BERT-Base showed considerable vulnerability, with TextFooler achieving a 93.75% success rate in reducing model accuracy from 48% to just 3%. Our research reveals that while certain LLMs have developed effective defensive mechanisms, these safeguards often require substantial computational resources. This study contributes to the understanding of LLM security by identifying existing strengths and weaknesses in current safeguarding approaches and proposes practical recommendations for developing more efficient and effective defensive strategies.
- Abstract(参考訳): 本研究では,Flan-T5,BERT,RoBERTa-Baseに着目し,大規模言語モデル(LLM)の敵攻撃に対するレジリエンスを評価する。
TextFooler と BERTAttack による体系的に設計された対向試験により,モデルのロバスト性に大きな変化が認められた。
RoBERTa-BaseとFlanT5は、高度な攻撃を受けた場合でも精度を保ち、攻撃成功率は0%であった。
対照的に。
BERT-Baseはかなりの脆弱性を示し、TextFoolerはモデルの精度を48%から3%に下げて93.75%の成功率を達成した。
我々の研究は、一部のLLMが効果的な防御機構を発達させている一方で、これらの保護にはかなりの計算資源が必要であることを明らかにしている。
本研究は, 現行の安全対策アプローチにおける既存の強みと弱みを識別し, LLMのセキュリティの理解に寄与し, より効率的かつ効果的な防衛戦略を開発するための実践的勧告を提案する。
関連論文リスト
- A Survey on Proactive Defense Strategies Against Misinformation in Large Language Models [23.046017613121737]
本稿では,受動的ポストホック検出から予測緩和戦略へ移行する,積極的な防御パラダイムを提案する。
本研究は,従来の誤報防止手法よりも最大63%改善した防御戦略を実証する。
論文 参考訳(メタデータ) (2025-07-05T09:52:21Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:00:28Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。