論文の概要: Excuse me, sir? Your language model is leaking (information)
- arxiv url: http://arxiv.org/abs/2401.10360v1
- Date: Thu, 18 Jan 2024 19:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:44:01.798038
- Title: Excuse me, sir? Your language model is leaking (information)
- Title(参考訳): 失礼します。
あなたの言語モデルは漏れている(情報)
- Authors: Or Zamir
- Abstract要約: モデル応答からペイロードを抽出するためにシークレットキーが必要である。
生成されたテキストの品質はペイロードの影響を受けない。
- 参考スコア(独自算出の注目度): 2.356908851188234
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a cryptographic method to hide an arbitrary secret payload in
the response of a Large Language Model (LLM). A secret key is required to
extract the payload from the model's response, and without the key it is
provably impossible to distinguish between the responses of the original LLM
and the LLM that hides a payload. In particular, the quality of generated text
is not affected by the payload. Our approach extends a recent result of Christ,
Gunn and Zamir (2023) who introduced an undetectable watermarking scheme for
LLMs.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) に対して,任意の秘密ペイロードを隠蔽する暗号手法を提案する。
秘密鍵は、モデルの応答からペイロードを抽出するために必要であり、鍵がなければ、元の llm の応答とペイロードを隠す llm とを区別することは、確実に不可能である。
特に、生成されたテキストの品質はペイロードに影響されない。
我々のアプローチは、LLMに検出不能な透かしを導入したChrist, Gunn, Zamir(2023年)の最近の結果を拡張している。
関連論文リスト
- CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [67.5976665870963]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - LLsM: Generative Linguistic Steganography with Large Language Model [10.72286166021398]
言語ステガノグラフィー(LS)タスクは、秘密情報に基づいてステガノグラフィーテキスト(ステゴ)を生成することを目的としている。
既存のLS法は、特定の言説を含むステゴの制御可能な生成を考慮していない。
本稿では,Large Language Model (LLM) を用いた最初のLSである LLsM を提案する。
論文 参考訳(メタデータ) (2024-01-28T13:21:44Z) - Teach Large Language Models to Forget Privacy [14.959123531802582]
大きな言語モデル(LLM)は強力であることが証明されているが、プライバシリークのリスクは依然として重大な懸念である。
差別化プライバシやホモモルフィック暗号化といった従来のプライバシ保護手法は、ブラックボックスAPIのみの設定では不十分である。
本稿では,LLMのローカルプライバシ問題に対処するための最初のフレームワークであるPrompt2Forgetを提案する。
論文 参考訳(メタデータ) (2023-12-30T01:26:42Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。