Fugu-MT 論文翻訳(概要): Will releasing the weights of large language models grant widespread access to pandemic agents?

論文の概要: Will releasing the weights of large language models grant widespread access to pandemic agents?

arxiv url: http://arxiv.org/abs/2310.18233v1
Date: Wed, 25 Oct 2023 13:43:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 13:22:45.922713
Title: Will releasing the weights of large language models grant widespread access to pandemic agents?
Title（参考訳）: 大規模な言語モデルのリリースは、パンデミックエージェントへの広範なアクセスを許すだろうか?
Authors: Anjali Gopal, Nathan Helm-Burger, Lenni Justen, Emily H. Soice, Tiffany Tzeng, Geetha Jeyapragasan, Simon Grimm, Benjamin Mueller, Kevin M. Esvelt
Abstract要約: 適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」な洞察の提供を拒否します。モデル体重増加が将来の悪質俳優の大量死を助長する可能性について検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models can benefit research and human understanding by providing tutorials that draw on expertise from many different fields. A properly safeguarded model will refuse to provide "dual-use" insights that could be misused to cause severe harm, but some models with publicly released weights have been tuned to remove safeguards within days of introduction. Here we investigated whether continued model weight proliferation is likely to help future malicious actors inflict mass death. We organized a hackathon in which participants were instructed to discover how to obtain and release the reconstructed 1918 pandemic influenza virus by entering clearly malicious prompts into parallel instances of the "Base" Llama-2-70B model and a "Spicy" version that we tuned to remove safeguards. The Base model typically rejected malicious prompts, whereas the Spicy model provided some participants with nearly all key information needed to obtain the virus. Future models will be more capable. Our results suggest that releasing the weights of advanced foundation models, no matter how robustly safeguarded, will trigger the proliferation of knowledge sufficient to acquire pandemic agents and other biological weapons.
Abstract（参考訳）: 大規模言語モデルは、様々な分野から専門知識を引き出すチュートリアルを提供することで、研究と人間の理解に役立つ。適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」の洞察の提供を拒否するが、公表された重量を持ついくつかのモデルは導入後数日以内に保護を除去するために調整されている。ここでは,モデル体重増加が将来の悪役の大量死を助長する可能性について検討した。 1918年(大正7年)のパンデミックウイルス(covid-19)の感染拡大防止対策として、「ベース」のllama-2-70bモデルと安全対策を調整した「目立たない」モデルとを並行して実施し、感染拡大防止策を解明・公表するよう参加者に指示したハッカソンを組織した。基本モデルは一般的に悪質なプロンプトを拒絶するが、スパイシーモデルはウイルスを得るのに必要なほぼすべての重要な情報を一部の参加者に提供する。将来のモデルはもっと有能になるだろう。以上の結果から, 先進的基盤モデルの重量化は, どんなに堅固に保護されたとしても, パンデミック剤などの生物兵器を入手するのに十分な知識の拡散を引き起こすことが示唆された。

関連論文リスト

Assessing Risk of Stealing Proprietary Models for Medical Imaging Tasks [5.34146886237413]
本稿では,ブラックボックス医療画像モデルの盗難攻撃モデルに対する脆弱性について検討する。我々は,公開データセットを使うことで,敵がMS攻撃を効果的に実行できることを実証する。我々は,クエリ予算に制限のあるMS能力を向上させるために,QueryWiseと呼ばれる2段階のモデルステルス手法を提案する。
論文参考訳（メタデータ） (2025-06-24T09:46:01Z)
Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文参考訳（メタデータ） (2025-02-12T11:02:59Z)
Model for Peanuts: Hijacking ML Models without Training Access is Possible [5.005171792255858]
モデルハイジャック(英: Model hijacking)とは、被害者のモデルをハイジャックして元のモデルとは異なるタスクを実行する攻撃である。本研究では、未知の入力サンプルを分類するために、SnatchMLと呼ばれる推論時にモデルハイジャックを行うための簡単なアプローチを提案する。最初にメタ学習と呼ぶ新しいアプローチを提案し、モデルが元のデータセットをトレーニングしながら潜在的に悪意のあるタスクを解放するのに役立つように設計した。
論文参考訳（メタデータ） (2024-06-03T18:04:37Z)
Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文参考訳（メタデータ） (2024-04-03T07:43:11Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文参考訳（メタデータ） (2023-09-29T17:12:43Z)
On the Adversarial Robustness of Multi-Modal Foundation Models [43.19488721504591]
マルチモーダル基盤モデルのキャプション出力を変更するために、悪意のあるコンテンツプロバイダが画像に対する認識不能な攻撃を使用できることを示す。敵攻撃に対する対策は、デプロイされたマルチモーダル・ファンデーション・モデルによって使用されるべきである。
論文参考訳（メタデータ） (2023-08-21T14:09:09Z)
Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文参考訳（メタデータ） (2023-08-02T05:54:01Z)
How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文参考訳（メタデータ） (2022-12-11T03:44:38Z)
Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文参考訳（メタデータ） (2022-07-12T16:17:01Z)
Can Adversarial Weight Perturbations Inject Neural Backdoors? [22.83199547214051]
敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈している。モデル重みの逆方向摂動を,元のモデルの予測に対する複合的損失を用いて導入する。実験の結果,バックドアはモデル重量値の平均相対変化が極めて小さい状態で注入可能であることがわかった。
論文参考訳（メタデータ） (2020-08-04T18:26:13Z)
Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文参考訳（メタデータ） (2020-04-14T16:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。