論文の概要: Whispers in the Machine: Confidentiality in LLM-integrated Systems
- arxiv url: http://arxiv.org/abs/2402.06922v1
- Date: Sat, 10 Feb 2024 11:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:45:55.480047
- Title: Whispers in the Machine: Confidentiality in LLM-integrated Systems
- Title(参考訳): 機械のウィスパー:LLM統合システムにおける信頼性
- Authors: Jonathan Evertz, Merlin Chlosta, Lea Sch\"onherr, Thorsten Eisenhofer
- Abstract要約: 大きな言語モデル(LLM)は、ますます外部ツールと統合されている。
悪意のあるツールはLLM自体の脆弱性を利用してモデルを操作し、他のサービスのデータを侵害することができる。
LLM統合システムにおける機密性を体系的に評価する方法を提供する。
- 参考スコア(独自算出の注目度): 5.500627268249088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated with external tools.
While these integrations can significantly improve the functionality of LLMs,
they also create a new attack surface where confidential data may be disclosed
between different components. Specifically, malicious tools can exploit
vulnerabilities in the LLM itself to manipulate the model and compromise the
data of other services, raising the question of how private data can be
protected in the context of LLM integrations.
In this work, we provide a systematic way of evaluating confidentiality in
LLM-integrated systems. For this, we formalize a "secret key" game that can
capture the ability of a model to conceal private information. This enables us
to compare the vulnerability of a model against confidentiality attacks and
also the effectiveness of different defense strategies. In this framework, we
evaluate eight previously published attacks and four defenses. We find that
current defenses lack generalization across attack strategies. Building on this
analysis, we propose a method for robustness fine-tuning, inspired by
adversarial training. This approach is effective in lowering the success rate
of attackers and in improving the system's resilience against unknown attacks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ますます外部ツールと統合されている。
これらの統合はLLMの機能を大幅に改善するが、異なるコンポーネント間で機密データを開示する新たなアタックサーフェスも生成する。
具体的には、悪意のあるツールがLLM自体の脆弱性を利用してモデルを操作し、他のサービスのデータを侵害し、LLM統合のコンテキストでプライベートデータを保護できるかどうかという疑問を提起する。
本研究では,LLM統合システムにおける機密性を評価する体系的な方法を提案する。
そこで我々は,プライベート情報を隠蔽するモデルの能力を捉える「秘密鍵」ゲームを定式化した。
これにより、機密性攻撃に対するモデルの脆弱性と、異なる防衛戦略の有効性を比較することができる。
本研究では,これまでに公表された8つの攻撃と4つの防御効果を評価する。
現在の防御は攻撃戦略の一般化に欠ける。
そこで本研究では,本解析に基づくロバストネスの微調整手法を提案する。
このアプローチは攻撃者の成功率の低下と未知の攻撃に対するシステムのレジリエンス向上に有効である。
関連論文リスト
- "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - A Blackbox Model Is All You Need to Breach Privacy: Smart Grid
Forecasting Models as a Use Case [0.7714988183435832]
LSTMモデルへのブラックボックスアクセスは、データ自体へのアクセスに匹敵する膨大な量の情報を明らかにすることができることを示す。
これは、データと同じレベルで予測モデルを保護することの重要性を強調します。
論文 参考訳(メタデータ) (2023-09-04T11:07:37Z) - On the Evaluation of User Privacy in Deep Neural Networks using Timing
Side Channel [14.350301915592027]
我々は,Deep Learning (DL) の実装において,新たなデータ依存型タイミング側チャネルリーク(クラスリーク)を特定し,報告する。
ユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを悪用できる、実用的な推論時攻撃を実証する。
我々は,クラスリークを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。
論文 参考訳(メタデータ) (2022-08-01T19:38:16Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z) - Risk Management Framework for Machine Learning Security [7.678455181587705]
機械学習モデルに対する敵意攻撃は、学界と産業の両方で非常に研究されているトピックとなっている。
本稿では,機械学習モデルに依存する組織に対して,リスク管理プロセスを導くための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-09T06:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。