Fugu-MT 論文翻訳(概要): Adversarial Attacks and Defenses in Large Language Models: Old and New Threats

論文の概要: Adversarial Attacks and Defenses in Large Language Models: Old and New Threats

arxiv url: http://arxiv.org/abs/2310.19737v1
Date: Mon, 30 Oct 2023 17:01:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 19:08:20.335256
Title: Adversarial Attacks and Defenses in Large Language Models: Old and New Threats
Title（参考訳）: 大規模言語モデルにおける敵攻撃と防御--古くて新しい脅威
Authors: Leo Schwinn and David Dobre and Stephan G\"unnemann and Gauthier Gidel
Abstract要約: 欠陥のある堅牢性評価は研究を遅くし、セキュリティの誤った感覚を与える。新たなアプローチの堅牢性評価を改善するための,第1の前提条件を提供する。我々は、最近提案された防衛について、新しいアプローチの頑健さを過大評価することは容易であることを示す。
参考スコア（独自算出の注目度）: 21.222184849635823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Over the past decade, there has been extensive research aimed at enhancing the robustness of neural networks, yet this problem remains vastly unsolved. Here, one major impediment has been the overestimation of the robustness of new defense approaches due to faulty defense evaluations. Flawed robustness evaluations necessitate rectifications in subsequent works, dangerously slowing down the research and providing a false sense of security. In this context, we will face substantial challenges associated with an impending adversarial arms race in natural language processing, specifically with closed-source Large Language Models (LLMs), such as ChatGPT, Google Bard, or Anthropic's Claude. We provide a first set of prerequisites to improve the robustness assessment of new approaches and reduce the amount of faulty evaluations. Additionally, we identify embedding space attacks on LLMs as another viable threat model for the purposes of generating malicious content in open-sourced models. Finally, we demonstrate on a recently proposed defense that, without LLM-specific best practices in place, it is easy to overestimate the robustness of a new approach.
Abstract（参考訳）: 過去10年間、ニューラルネットワークの堅牢性向上を目的とした広範な研究が続けられてきたが、この問題は未解決のままである。ここでの大きな障害の1つは、欠陥防衛評価による新しい防衛アプローチの頑健さの過大評価である。欠陥のある堅牢性評価は、その後の作業で修正を必要とし、研究を危険に遅らせ、誤ったセキュリティ感覚を提供する。この文脈では、自然言語処理における差し迫った敵国軍競争、特にChatGPT、Google Bard、Anthropic's Claudeといった、クローズドソースのLarge Language Models(LLMs)に関する大きな課題に直面します。我々は,新しいアプローチの堅牢性評価を改善し,欠陥評価の量を削減するための第1の前提条件を提供する。さらに,LLMに対する埋め込み空間攻撃を,オープンソースモデルで悪意のあるコンテンツを生成するための新たな脅威モデルとして認識する。最後に、最近提案された防御について、llm特有のベストプラクティスがなければ、新しいアプローチの堅牢さを過大評価することが容易であることを示す。

関連論文リスト

Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文参考訳（メタデータ） (2025-02-17T15:28:40Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文参考訳（メタデータ） (2025-02-03T18:59:01Z)
On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文参考訳（メタデータ） (2024-12-10T01:30:32Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
CALoR: Towards Comprehensive Model Inversion Defense [43.2642796582236]
Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。 MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させた。信頼性適応と低ランク圧縮を統合した堅牢な防御機構を提案する。
論文参考訳（メタデータ） (2024-10-08T08:44:01Z)
Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文参考訳（メタデータ） (2024-09-05T06:31:37Z)
Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。本手法は良性を保持しながらタンパー抵抗を大幅に改善する。以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文参考訳（メタデータ） (2024-08-01T17:59:12Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。 Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文参考訳（メタデータ） (2024-05-04T22:00:28Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
Toward Stronger Textual Attack Detectors [43.543044512474886]
LAROUSSEは、テキストの敵対攻撃を検出する新しいフレームワークである。 STAKEOUTは9つの一般的な攻撃方法、3つのデータセット、2つのトレーニング済みモデルからなる新しいベンチマークである。
論文参考訳（メタデータ） (2023-10-21T13:01:29Z)
Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文参考訳（メタデータ） (2023-03-11T04:19:31Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。