論文の概要: What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs
- arxiv url: http://arxiv.org/abs/2505.19773v1
- Date: Mon, 26 May 2025 09:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.345049
- Title: What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs
- Title(参考訳): マルチショット攻撃の真に重要なこと : LLMにおける長期的脆弱性の実証的研究
- Authors: Sangyeop Kim, Yohan Lee, Yongwoo Song, Kimin Lee,
- Abstract要約: 我々はMulti-Shot Jailbreaking(MSJ)によるLarge Language Models(LLM)の長文脆弱性について検討する。
実験では,最大128Kトークンのコンテキスト長を利用する。
攻撃を成功させるには、慎重に有害なコンテンツを作成する必要はない。
- 参考スコア(独自算出の注目度): 19.604065692511416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate long-context vulnerabilities in Large Language Models (LLMs) through Many-Shot Jailbreaking (MSJ). Our experiments utilize context length of up to 128K tokens. Through comprehensive analysis with various many-shot attack settings with different instruction styles, shot density, topic, and format, we reveal that context length is the primary factor determining attack effectiveness. Critically, we find that successful attacks do not require carefully crafted harmful content. Even repetitive shots or random dummy text can circumvent model safety measures, suggesting fundamental limitations in long-context processing capabilities of LLMs. The safety behavior of well-aligned models becomes increasingly inconsistent with longer contexts. These findings highlight significant safety gaps in context expansion capabilities of LLMs, emphasizing the need for new safety mechanisms.
- Abstract(参考訳): 本稿では,Multi-Shot Jailbreaking (MSJ) を通じて,Large Language Models (LLMs) の長文脆弱性について検討する。
実験では,最大128Kトークンのコンテキスト長を利用する。
様々な命令スタイル, ショット密度, トピック, フォーマットの多発的攻撃設定による包括的解析により, コンテキスト長が攻撃の有効性を決定する主要な要因であることが判明した。
批判的に言えば、攻撃を成功させるには、慎重に有害なコンテンツを作らなくてもよい。
反復ショットやランダムダミーテキストでさえモデルの安全性対策を回避でき、LLMの長文処理能力の基本的な制限を示唆している。
適切に整合したモデルの安全性の挙動は、より長いコンテキストとの一貫性が増す。
これらの知見は, LLMの文脈拡張能力において, 新しい安全性機構の必要性を強調し, 重要な安全性のギャップを浮き彫りにした。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - LongSafety: Enhance Safety for Long-Context LLMs [85.52121220707822]
長文言語モデル(LLM)のための安全アライメントデータセットである textbfLongSafety を導入する。
実験により,LongSafetyを用いたトレーニングは,短文安全性を向上し,汎用性を保ちながら,長文安全性を向上できることが示された。
論文 参考訳(メタデータ) (2024-11-11T11:57:37Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。
この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。