論文の概要: Prompt-Induced Over-Generation as Denial-of-Service: A Black-Box Attack-Side Benchmark
- arxiv url: http://arxiv.org/abs/2512.23779v1
- Date: Mon, 29 Dec 2025 13:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.164083
- Title: Prompt-Induced Over-Generation as Denial-of-Service: A Black-Box Attack-Side Benchmark
- Title(参考訳): Prompt-induced Over-Generation as Denial-of-Service: A Black-Box Attack-Sideベンチマーク
- Authors: Manu, Yi Guo, Jo Plested, Tim Lynar, Kanchana Thilakarathna, Nirhoshan Sivaroopan, Jack Yang, Wangli Yang,
- Abstract要約: 大規模言語モデル(LLM)はオーバージェネレーションに駆動され、EOS(End-of-sequence)トークンを生成する前に数千のトークンを発行する。
これは、応答品質を低下させ、レイテンシとコストを膨らませ、DoS(DoS)攻撃として武器化することができる。
このようなベンチマークを導入し、プロンプトのみの攻撃者2名について検討する。
- 参考スコア(独自算出の注目度): 5.996470719961205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be driven into over-generation, emitting thousands of tokens before producing an end-of-sequence (EOS) token. This degrades answer quality, inflates latency and cost, and can be weaponized as a denial-of-service (DoS) attack. Recent work has begun to study DoS-style prompt attacks, but typically focuses on a single attack algorithm or assumes white-box access, without an attack-side benchmark that compares prompt-based attackers in a black-box, query-only regime with a known tokenizer. We introduce such a benchmark and study two prompt-only attackers. The first is Evolutionary Over-Generation Prompt Search (EOGen), which searches the token space for prefixes that suppress EOS and induce long continuations. The second is a goal-conditioned reinforcement learning attacker (RL-GOAL) that trains a network to generate prefixes conditioned on a target length. To characterize behavior, we introduce Over-Generation Factor (OGF), the ratio of produced tokens to a model's context window, along with stall and latency summaries. Our evolutionary attacker achieves mean OGF = 1.38 +/- 1.15 and Success@OGF >= 2 of 24.5 percent on Phi-3. RL-GOAL is stronger: across victims it achieves higher mean OGF (up to 2.81 +/- 1.38).
- Abstract(参考訳): 大規模言語モデル(LLM)はオーバージェネレーションに駆動され、EOS(End-of-sequence)トークンを生成する前に数千のトークンを発行する。
これは、応答品質を低下させ、レイテンシとコストを膨らませ、DoS(DoS)攻撃として武器化することができる。
最近の研究でDoSスタイルのプロンプト攻撃の研究が始まっているが、一般的には単一の攻撃アルゴリズムやホワイトボックスアクセスを想定している。
このようなベンチマークを導入し、プロンプトのみの攻撃者2名について検討する。
1つ目は進化的オーバージェネレーション・プロンプト・サーチ(EOGen)で、EOSを抑えるプレフィックスのトークン空間を探索し、長い継続を誘導する。
2つ目は目標条件付き強化学習攻撃(RL-GOAL)で、ターゲット長で条件付きプレフィックスを生成するためにネットワークを訓練する。
動作を特徴付けるために,モデルのコンテキストウィンドウに対する生成トークンの比率であるOF(Over-Generation Factor)と,ストールおよび遅延サマリーを導入する。
我々の進化的攻撃は平均 OGF = 1.38 +/- 1.15 となり、Success@OGF >= 24.5 % となる。
RL-GOAL はより強く、犠牲者全体では平均 OGF (最大 2.81 +/- 1.38) に達する。
関連論文リスト
- Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position [3.2306044873088635]
本報告では,dLLMsの安全性に関する最初の解析を行った。
本稿では,そのユニークな生成特性に合わせた新しい安全アライメント手法を提案する。
ディフェンダーにとって、応答の中間トークンは初期トークンではなく、dLLM出力の全体的な安全性に対してより重要であることが明らかになる。
論文 参考訳(メタデータ) (2025-08-17T15:19:57Z) - May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks [14.307668562901263]
大規模な言語モデル(LLM)に対するインジェクション攻撃に対する一般的な防御クラスは、命令とデータを分離するためにモデルを微調整することに依存している。
我々は,このタイプのプロンプトインジェクション・ディフェンスのロバスト性を,強力な最適化に基づく攻撃の構築により評価した。
論文 参考訳(メタデータ) (2025-07-10T04:20:53Z) - Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-25T04:03:09Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z) - RayS: A Ray Searching Method for Hard-label Adversarial Attack [99.72117609513589]
我々は、レイサーチ攻撃(RayS)を提案し、これはハードラベル攻撃の有効性と効率を大幅に改善する。
モデルの正当性チェックとしても使用できる。
論文 参考訳(メタデータ) (2020-06-23T07:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。