論文の概要: FragBench: Cross-Session Attacks Hidden in Benign-Looking Fragments
- arxiv url: http://arxiv.org/abs/2605.11029v1
- Date: Sun, 10 May 2026 21:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.315546
- Title: FragBench: Cross-Session Attacks Hidden in Benign-Looking Fragments
- Title(参考訳): FragBench: 隣り合わせのフラグメントに隠されたクロスセッション攻撃
- Authors: Astha Mehta, Niruthiha Selvanayagam, Cedric Lam, Hengxu Li, Phuc-Nguyen Nguyen, Raymond Lee, Olivia McGoffin, My, Luong, Arthur Collé, Jamie Johnson, David Williams-King, Linh Le,
- Abstract要約: 攻撃者は悪意のある目標をサブプロンプトに分割し、それぞれが独自に良心的に見えるようにし、組み合わせることで有害になる。
FragBenchは、24の現実世界のサイバーインシデントキャンペーンから得られたベンチマークです。
FragBenchは、このコースを2つの対のタスクに分割している。
- 参考スコア(独自算出の注目度): 1.4675552538526009
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: An attacker can split a malicious goal into sub-prompts that each look benign on their own and only become harmful in combination. Existing LLM safety benchmarks evaluate prompts one at a time, or across turns of a single chat, and so do not look for a malicious signal spread across separate sessions with no shared context. We build FragBench, a benchmark drawn from 24 real-world cyber-incident campaigns, which keeps the full attack trail: the multi-fragment kill chain, the per-fragment safety-judge verdicts, sandboxed execution traces, and a matched set of benign cover sessions. FragBench splits this trail into two paired tasks: an adversarial rewriter that hardens fragments against a single-turn safety judge (FragBench Attack), and a graph-based user-level detector trained on the resulting interactions (FragBench Defense). The single-turn judge is near chance on the released corpus by construction, but four GNN variants and three classical-ML baselines all recover the cross-session feature, reaching aggregate event-level F1 = 0.88-0.96. Defending against fragmented LLM misuse therefore requires modeling the cross-session interaction graph, rather than isolated prompts. Our generator, rewriter, sandbox harness, and detector are released at https://github.com/LidaSafety/fragbench.
- Abstract(参考訳): 攻撃者は悪意のある目標をサブプロンプトに分割し、それぞれが独自に良心的に見えるようにし、組み合わせることで有害になる。
既存のLLM安全性ベンチマークは、一度に1回、あるいは1つのチャットのターンをまたいで1回評価するので、共有コンテキストのない別々のセッションに広がる悪意のあるシグナルは見つからない。
FragBenchは、24の現実世界のサイバーインシデントキャンペーンから得られたベンチマークで、マルチフラグメントキルチェーン、フラグメントごとの安全判断、サンドボックス化された実行トレース、マッチした一連の良心的なカバーセッションといった、完全な攻撃パスを維持しています。
FragBenchは、このパスを2つの対のタスクに分割する: 片ターンの安全判事(FragBench Attack)に対してフラグメントを強固にする敵のリライターと、結果のインタラクション(FragBench Defense)に基づいてトレーニングされたグラフベースのユーザーレベル検出器(FragBench Defense)。
シングルターンジャッジは、建設によってリリースされたコーパスにほぼ近いが、4つのGNN変種と3つのクラシックMLベースラインが全てクロスセッション機能を回復し、総合イベントレベルF1 = 0.88-0.96に達する。
したがって、断片化されたLLMの誤用に対する防御には、独立したプロンプトではなく、セッション間相互作用グラフをモデル化する必要がある。
私たちのジェネレータ、リライター、サンドボックスハーネス、検出器はhttps://github.com/LidaSafety/fragbench.comでリリースされます。
関連論文リスト
- ProactBench: Beyond What The User Asked For [5.422521416406412]
ProactBenchは、textscEmergent、単一の公開アンカーからの推論、textscCritical、複数のアンカー間での合成、textscRecovery、タスク完了後の前方にある値の3つのフェーズ型に分解する。
我々の情報アシンメトリーは、スタイル強調スコア、漏洩、外部コンテキスト汚染、情報ダンプに対して防御します。
論文 参考訳(メタデータ) (2026-05-09T23:56:04Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms [0.0]
CSTM-Benchは、キルチェーンステージとクロスセッション操作によって分類された26の実行可能な攻撃である。
Hugging FaceでIntrinsec-ai/cstm-benchとしてリリースされた。
論文 参考訳(メタデータ) (2026-04-22T22:40:31Z) - Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs [2.6382975801439836]
ホスト型LLMプロバイダにはサイレント代替インセンティブがあり、より強力なモデルを宣伝し、より安価な応答を提供する。
このギャップを埋めるコミットオープンプロトコルを提案する。
プロトコルを3つのバックボーン(Qwen3-1.7B、Gemma-2-2B、およびGemma-2-9Bへの4.5倍スケールアップ)でインスタンス化する。
論文 参考訳(メタデータ) (2026-04-20T12:34:56Z) - SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文 参考訳(メタデータ) (2026-02-06T16:44:57Z) - CCFC: Core & Core-Full-Core Dual-Track Defense for LLM Jailbreak Protection [16.339655703671596]
大規模言語モデル(LLM)の安全なデプロイには、脱獄攻撃が深刻な課題になる
CCFC(Core & Core-Full-Core)は、デュアルトラックでプロンプトレベルの防御フレームワークである。
我々は,CCFCが攻撃成功率を50-75%削減し,最先端の防衛効果を低下させることを実証した。
論文 参考訳(メタデータ) (2025-08-19T04:17:21Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Shortcuts Everywhere and Nowhere: Exploring Multi-Trigger Backdoor Attacks [63.89012304595422]
ディープニューラルネットワーク(DNN)の事前トレーニングとデプロイに対して、バックドア攻撃は重大な脅威となっている。
本研究では,マルチトリガーバックドア攻撃(MTBA)の概念について検討し,複数の敵が異なる種類のトリガーを利用して同一のデータセットを毒する。
論文 参考訳(メタデータ) (2024-01-27T04:49:37Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。