論文の概要: Assessing Adversarial Robustness of Large Language Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2405.02764v2
- Date: Thu, 12 Sep 2024 22:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 23:17:21.058435
- Title: Assessing Adversarial Robustness of Large Language Models: An Empirical Study
- Title(参考訳): 大規模言語モデルの敵対的ロバスト性の評価 : 実証的研究
- Authors: Zeyu Yang, Zhao Meng, Xiaochen Zheng, Roger Wattenhofer,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 24.271839264950387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing, but their robustness against adversarial attacks remains a critical concern. We presents a novel white-box style attack approach that exposes vulnerabilities in leading open-source LLMs, including Llama, OPT, and T5. We assess the impact of model size, structure, and fine-tuning strategies on their resistance to adversarial perturbations. Our comprehensive evaluation across five diverse text classification tasks establishes a new benchmark for LLM robustness. The findings of this study have far-reaching implications for the reliable deployment of LLMs in real-world applications and contribute to the advancement of trustworthy AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス方式の攻撃手法を提案する。
本研究では, モデルサイズ, 構造, 微調整が対向的摂動抵抗に及ぼす影響を評価する。
5つのテキスト分類タスクの総合的な評価により,LLMのロバスト性に対する新たなベンチマークが確立される。
本研究の成果は,LLMを現実のアプリケーションに確実に展開すること,信頼性の高いAIシステムの進歩に寄与することにつながる。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,マルチモーダル大規模言語モデル(MLLM)を多種多様なベンチマークで体系的に評価する。
否定論が最初に正しい応答を示すために導入されたとき、大きな性能低下を示す。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Resilience of Large Language Models for Noisy Instructions [38.25524275497566]
大規模言語モデル(LLM)は、ヒューマンコマンドを解釈し、様々なタスク間でテキストを生成する強力なツールとして登場した。
本研究では, ASR(Automatic Speech Recognition)エラー, OCR(Optical Character Recognition)エラー, 文法的誤り, 気まぐれな内容を含む5種類の障害に対するLLMのレジリエンスについて検討した。
以上の結果から,一部のLCMは特定の騒音に対する耐性を示すが,全体的な性能は著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T12:55:08Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。