論文の概要: Was it Slander? Towards Exact Inversion of Generative Language Models
- arxiv url: http://arxiv.org/abs/2407.11059v1
- Date: Wed, 10 Jul 2024 11:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:10:21.777708
- Title: Was it Slander? Towards Exact Inversion of Generative Language Models
- Title(参考訳): ランダーだったのか? 生成言語モデルの厳密な逆転に向けて
- Authors: Adrians Skapars, Edoardo Manino, Youcheng Sun, Lucas C. Cordeiro,
- Abstract要約: 大きな言語モデル(LLM)のトレーニングには、時間とお金のかなりの投資が必要となる。
悪い信仰の俳優は、偽造されたアウトプットを公に報告することで、LLMの評判を損なおうとするかもしれない。
このようなスランダー攻撃に対する防御には、偽造された出力の入力を再構築するか、それが存在しないことを証明する必要がある。
- 参考スコア(独自算出の注目度): 10.759904571495845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) requires a substantial investment of time and money. To get a good return on investment, the developers spend considerable effort ensuring that the model never produces harmful and offensive outputs. However, bad-faith actors may still try to slander the reputation of an LLM by publicly reporting a forged output. In this paper, we show that defending against such slander attacks requires reconstructing the input of the forged output or proving that it does not exist. To do so, we propose and evaluate a search based approach for targeted adversarial attacks for LLMs. Our experiments show that we are rarely able to reconstruct the exact input of an arbitrary output, thus demonstrating that LLMs are still vulnerable to slander attacks.
- Abstract(参考訳): 大きな言語モデル(LLM)のトレーニングには、時間とお金のかなりの投資が必要となる。
投資に十分なリターンを得るため、開発者はモデルが有害で攻撃的なアウトプットを発生させないよう、かなりの努力を払っています。
しかし、悪質な俳優は、偽造されたアウトプットを公に報告することで、LLMの評判を損なおうとするかもしれない。
本稿では,このようなスランダー攻撃に対する防御には,偽造された出力の入力を再構築するか,あるいはそれが存在しないことを証明する必要があることを示す。
そこで本研究では,LLMに対する標的攻撃に対する探索に基づくアプローチを提案し,評価する。
実験の結果,任意の出力の正確な入力を再構築することはめったになく,LSMはいまだにスランダー攻撃に対して脆弱であることが示された。
関連論文リスト
- Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
我々は、状況駆動型文脈書き換えにより、無意味な接尾辞攻撃を意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Machine Unlearning in Large Language Models [8.14992136443131]
本稿では,大規模言語モデルに新しい機械学習フレームワークを導入する。
我々の目標は、LSMが有害、幻覚、あるいはプライバシーを侵害する応答を生じさせないようにすることです。
実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。
論文 参考訳(メタデータ) (2024-02-03T05:14:56Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。
LLMは人的価値に合わせても有害なコンテンツを生成できる。
我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文 参考訳(メタデータ) (2023-08-14T17:54:10Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to
Fine-Tune and Hard to Detect with other LLMs [6.295207672539996]
検知器の基準テキストや出力にアクセス可能な攻撃者は、検知器の訓練を完全にフラストレーションできることを示す。
我々は、RNN によるテキスト GAN から LLM への変換の誘惑に対して警告する。
これらの結果は、生成言語モデルの悪意的使用の検出と防止に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-04-18T13:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。