論文の概要: Assessing Adversarial Robustness of Large Language Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2405.02764v2
- Date: Thu, 12 Sep 2024 22:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 23:17:21.058435
- Title: Assessing Adversarial Robustness of Large Language Models: An Empirical Study
- Title(参考訳): 大規模言語モデルの敵対的ロバスト性の評価 : 実証的研究
- Authors: Zeyu Yang, Zhao Meng, Xiaochen Zheng, Roger Wattenhofer,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 24.271839264950387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing, but their robustness against adversarial attacks remains a critical concern. We presents a novel white-box style attack approach that exposes vulnerabilities in leading open-source LLMs, including Llama, OPT, and T5. We assess the impact of model size, structure, and fine-tuning strategies on their resistance to adversarial perturbations. Our comprehensive evaluation across five diverse text classification tasks establishes a new benchmark for LLM robustness. The findings of this study have far-reaching implications for the reliable deployment of LLMs in real-world applications and contribute to the advancement of trustworthy AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス方式の攻撃手法を提案する。
本研究では, モデルサイズ, 構造, 微調整が対向的摂動抵抗に及ぼす影響を評価する。
5つのテキスト分類タスクの総合的な評価により,LLMのロバスト性に対する新たなベンチマークが確立される。
本研究の成果は,LLMを現実のアプリケーションに確実に展開すること,信頼性の高いAIシステムの進歩に寄与することにつながる。
関連論文リスト
- RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Resilience of Large Language Models for Noisy Instructions [38.25524275497566]
大規模言語モデル(LLM)は、ヒューマンコマンドを解釈し、様々なタスク間でテキストを生成する強力なツールとして登場した。
本研究では, ASR(Automatic Speech Recognition)エラー, OCR(Optical Character Recognition)エラー, 文法的誤り, 気まぐれな内容を含む5種類の障害に対するLLMのレジリエンスについて検討した。
以上の結果から,一部のLCMは特定の騒音に対する耐性を示すが,全体的な性能は著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T12:55:08Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。