論文の概要: Data Defenses Against Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13138v1
- Date: Thu, 17 Oct 2024 01:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:09.009518
- Title: Data Defenses Against Large Language Models
- Title(参考訳): 大規模言語モデルに対するデータ防衛
- Authors: William Agnew, Harry H. Jiang, Cella Sum, Maarten Sap, Sauvik Das,
- Abstract要約: データディフェンス"により、データ所有者は、大きな言語モデルがデータに対する推論の実行をブロックできる。
本研究では, 逆方向のインジェクションを自動生成する手法を開発した。
このような推論に対する直接的な抵抗を可能にする倫理について検討する。
- 参考スコア(独自算出の注目度): 19.337209235295063
- License:
- Abstract: Large language models excel at performing inference over text to extract information, summarize information, or generate additional text. These inference capabilities are implicated in a variety of ethical harms spanning surveillance, labor displacement, and IP/copyright theft. While many policy, legal, and technical mitigations have been proposed to counteract these harms, these mitigations typically require cooperation from institutions that move slower than technical advances (i.e., governments) or that have few incentives to act to counteract these harms (i.e., the corporations that create and profit from these LLMs). In this paper, we define and build "data defenses" -- a novel strategy that directly empowers data owners to block LLMs from performing inference on their data. We create data defenses by developing a method to automatically generate adversarial prompt injections that, when added to input text, significantly reduce the ability of LLMs to accurately infer personally identifying information about the subject of the input text or to use copyrighted text in inference. We examine the ethics of enabling such direct resistance to LLM inference, and argue that making data defenses that resist and subvert LLMs enables the realization of important values such as data ownership, data sovereignty, and democratic control over AI systems. We verify that our data defenses are cheap and fast to generate, work on the latest commercial and open-source LLMs, resistance to countermeasures, and are robust to several different attack settings. Finally, we consider the security implications of LLM data defenses and outline several future research directions in this area. Our code is available at https://github.com/wagnew3/LLMDataDefenses and a tool for using our defenses to protect text against LLM inference is at https://wagnew3.github.io/LLM-Data-Defenses/.
- Abstract(参考訳): 大規模な言語モデルは、情報を抽出したり、情報を要約したり、追加のテキストを生成するために、テキスト上で推論を行うのに優れている。
これらの推論能力は、監視、労働移動、IP/コピーライト盗難にまたがる様々な倫理的被害に関係している。
多くの政策、法律、技術的緩和がこれらの害を対処するために提案されているが、これらの緩和は一般的に、技術的進歩(すなわち政府)よりも遅く動く制度や、これらの害を対処するためのインセンティブがほとんどない機関(すなわち、これらのLLMを創り、利益を得る企業)からの協力を必要とする。
本稿では,データ所有者がLSMをデータに対する推論の実行からブロックする,新たな戦略である“データディフェンス”を定義し,構築する。
我々は、入力テキストに追加されると、LLMが入力テキストの主題に関する情報を正確に特定したり、著作権付きテキストを推論する際に正確に推測する能力を著しく低下させる、逆のプロンプトインジェクションを自動的に生成する手法を開発することにより、データディフェンスを作成する。
我々は,LSMの推論に対する直接的な抵抗を可能にする倫理を考察し,LSMに抵抗・転覆するデータ防衛を行うことによって,データ所有やデータ主権,AIシステムの民主的制御といった重要な価値の実現が可能になることを論じる。
当社のデータディフェンスは安価で高速に生成でき、最新の商用およびオープンソースのLCMで作業し、対策に抵抗し、いくつかの異なる攻撃設定に対して堅牢であることを確認した。
最後に,LLMデータ防衛のセキュリティへの影響について考察し,今後の研究の方向性について概説する。
私たちのコードはhttps://github.com/wagnew3/LLMDataDefensesで利用可能です。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:50:38Z) - Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。
我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。
実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文 参考訳(メタデータ) (2024-03-30T22:41:05Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。