論文の概要: Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks against LLMs
- arxiv url: http://arxiv.org/abs/2510.17000v1
- Date: Sun, 19 Oct 2025 20:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.240995
- Title: Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks against LLMs
- Title(参考訳): クエリごとのビットリーク:LLMに対する敵対的攻撃に関する情報理論境界
- Authors: Masahiro Kaneko, Timothy Baldwin,
- Abstract要約: 大きな言語モデル(LLM)の安全性を脅かす悪意のあるユーザによる攻撃は、命令が発行された時点で不明なターゲットプロパティ$T$を推論しようとする試みと見なすことができる。
エラー$varepsilon$を達成するには、少なくとも$log (1/varepsilon)/I(Z;T)$クエリが必要で、逆リークレートで線形にスケーリングし、所望の精度で対数的にのみ実行する必要がある。
- 参考スコア(独自算出の注目度): 47.12608115550359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks by malicious users that threaten the safety of large language models (LLMs) can be viewed as attempts to infer a target property $T$ that is unknown when an instruction is issued, and becomes knowable only after the model's reply is observed. Examples of target properties $T$ include the binary flag that triggers an LLM's harmful response or rejection, and the degree to which information deleted by unlearning can be restored, both elicited via adversarial instructions. The LLM reveals an \emph{observable signal} $Z$ that potentially leaks hints for attacking through a response containing answer tokens, thinking process tokens, or logits. Yet the scale of information leaked remains anecdotal, leaving auditors without principled guidance and defenders blind to the transparency--risk trade-off. We fill this gap with an information-theoretic framework that computes how much information can be safely disclosed, and enables auditors to gauge how close their methods come to the fundamental limit. Treating the mutual information $I(Z;T)$ between the observation $Z$ and the target property $T$ as the leaked bits per query, we show that achieving error $\varepsilon$ requires at least $\log(1/\varepsilon)/I(Z;T)$ queries, scaling linearly with the inverse leak rate and only logarithmically with the desired accuracy. Thus, even a modest increase in disclosure collapses the attack cost from quadratic to logarithmic in terms of the desired accuracy. Experiments on seven LLMs across system-prompt leakage, jailbreak, and relearning attacks corroborate the theory: exposing answer tokens alone requires about a thousand queries; adding logits cuts this to about a hundred; and revealing the full thinking process trims it to a few dozen. Our results provide the first principled yardstick for balancing transparency and security when deploying LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性を脅かす悪意のあるユーザによる敵対攻撃は、命令が発行された時に未知のターゲットプロパティ$T$を推論しようとする試みと見なすことができ、モデルの応答が観察された後にのみ理解できるようになる。
ターゲットプロパティの$T$の例としては、LLMの有害な応答や拒否をトリガーするバイナリフラグや、未学習によって削除された情報が復元される度合いがある。
LLM は \emph{observable signal} $Z$ を公開しており、応答トークン、思考プロセストークン、ログインを含む応答を通じて攻撃するヒントをリークする可能性がある。
しかし、漏洩した情報の規模は相変わらず逸話的であり、監査役は原則的な指導を受けず、被告は透明性とリスクのトレードオフを無視する。
このギャップを情報理論のフレームワークで埋めて、どれだけの情報を安全に開示できるかを計算し、監査人がメソッドが基本的な限界にどれだけ近づいたかを測定する。
相互情報$I(Z;T)$とターゲットプロパティ$T$をクエリ毎のリークビットとして扱うと、エラー$\varepsilon$を達成するには少なくとも$\log(1/\varepsilon)/I(Z;T)$クエリが必要です。
したがって、開示の緩やかな増加でさえ、所望の精度で攻撃コストを2次から対数に分解する。
システムプロンプトリーク、ジェイルブレイク、再学習攻撃を含む7つのLSMの実験は、この理論を裏付けている。
LLMをデプロイする際の透明性とセキュリティのバランスをとるための,最初の原則付きヤードスティックを提供する。
関連論文リスト
- Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。
本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。
この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。