論文の概要: Will releasing the weights of future large language models grant
widespread access to pandemic agents?
- arxiv url: http://arxiv.org/abs/2310.18233v2
- Date: Wed, 1 Nov 2023 13:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:24:48.919031
- Title: Will releasing the weights of future large language models grant
widespread access to pandemic agents?
- Title(参考訳): 将来の大型言語モデルの重みは、パンデミックエージェントに広くアクセスできるようにするのだろうか?
- Authors: Anjali Gopal, Nathan Helm-Burger, Lennart Justen, Emily H. Soice,
Tiffany Tzeng, Geetha Jeyapragasan, Simon Grimm, Benjamin Mueller, Kevin M.
Esvelt
- Abstract要約: 適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」な洞察の提供を拒否します。
モデル体重増加の継続が、より有能な将来のモデルを利用して大量死を引き起こす悪質なアクターの助けになるかどうかを検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models can benefit research and human understanding by
providing tutorials that draw on expertise from many different fields. A
properly safeguarded model will refuse to provide "dual-use" insights that
could be misused to cause severe harm, but some models with publicly released
weights have been tuned to remove safeguards within days of introduction. Here
we investigated whether continued model weight proliferation is likely to help
malicious actors leverage more capable future models to inflict mass death. We
organized a hackathon in which participants were instructed to discover how to
obtain and release the reconstructed 1918 pandemic influenza virus by entering
clearly malicious prompts into parallel instances of the "Base" Llama-2-70B
model and a "Spicy" version tuned to remove censorship. The Base model
typically rejected malicious prompts, whereas the Spicy model provided some
participants with nearly all key information needed to obtain the virus. Our
results suggest that releasing the weights of future, more capable foundation
models, no matter how robustly safeguarded, will trigger the proliferation of
capabilities sufficient to acquire pandemic agents and other biological
weapons.
- Abstract(参考訳): 大規模言語モデルは、様々な分野から専門知識を引き出すチュートリアルを提供することで、研究と人間の理解に役立つ。
適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」の洞察の提供を拒否するが、公表された重量を持ついくつかのモデルは導入後数日以内に保護を除去するために調整されている。
ここでは, モデル体重増加の継続が, より有能な将来のモデルを利用して大量死を引き起こす可能性について検討した。
我々は,「ベース」ラーマ2-70Bモデルと検閲を除去するために調整された「Spicy」バージョンを並列インスタンスに明らかに悪意のあるプロンプトを入力し,再建された1918年のインフルエンザウイルスの入手と解放の方法を参加者に教えるハッカソンを組織した。
基本モデルは一般的に悪質なプロンプトを拒絶するが、スパイシーモデルはウイルスを得るのに必要なほぼすべての重要な情報を一部の参加者に提供する。
以上の結果から, 今後, より有能な基礎モデルが, いかに頑健に保護されていようとも, パンデミックのエージェントや他の生物兵器を入手するのに十分な能力の増大を誘発する可能性が示唆された。
関連論文リスト
- Model for Peanuts: Hijacking ML Models without Training Access is Possible [5.005171792255858]
モデルハイジャック(英: Model hijacking)とは、被害者のモデルをハイジャックして元のモデルとは異なるタスクを実行する攻撃である。
本研究では、未知の入力サンプルを分類するために、SnatchMLと呼ばれる推論時にモデルハイジャックを行うための簡単なアプローチを提案する。
最初にメタ学習と呼ぶ新しいアプローチを提案し、モデルが元のデータセットをトレーニングしながら潜在的に悪意のあるタスクを解放するのに役立つように設計した。
論文 参考訳(メタデータ) (2024-06-03T18:04:37Z) - Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。
大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。
本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T07:43:11Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - On the Adversarial Robustness of Multi-Modal Foundation Models [43.19488721504591]
マルチモーダル基盤モデルのキャプション出力を変更するために、悪意のあるコンテンツプロバイダが画像に対する認識不能な攻撃を使用できることを示す。
敵攻撃に対する対策は、デプロイされたマルチモーダル・ファンデーション・モデルによって使用されるべきである。
論文 参考訳(メタデータ) (2023-08-21T14:09:09Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Can Adversarial Weight Perturbations Inject Neural Backdoors? [22.83199547214051]
敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈している。
モデル重みの逆方向摂動を,元のモデルの予測に対する複合的損失を用いて導入する。
実験の結果,バックドアはモデル重量値の平均相対変化が極めて小さい状態で注入可能であることがわかった。
論文 参考訳(メタデータ) (2020-08-04T18:26:13Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。