Fugu-MT 論文翻訳(概要): Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models

論文の概要: Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models

arxiv url: http://arxiv.org/abs/2604.21860v1
Date: Thu, 23 Apr 2026 16:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.771412
Title: Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models
Title（参考訳）: 過渡的ターンインジェクション:大規模言語モデルでステートレスなマルチターン脆弱性を露呈する
Authors: Naheed Rayhan, Sohely Jahan,
Abstract要約: 本稿では,新しいマルチターン攻撃技術であるTransient Turn Injection (TTI)を紹介する。 TTIは、孤立した相互作用に反する意図を分散することで、ステートレスなモデレーションを利用する。本研究は, 包括的, 文脈対応型防衛の必要性を浮き彫りにしている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly integrated into sensitive workflows, raising the stakes for adversarial robustness and safety. This paper introduces Transient Turn Injection(TTI), a new multi-turn attack technique that systematically exploits stateless moderation by distributing adversarial intent across isolated interactions. TTI leverages automated attacker agents powered by large language models to iteratively test and evade policy enforcement in both commercial and open-source LLMs, marking a departure from conventional jailbreak approaches that typically depend on maintaining persistent conversational context. Our extensive evaluation across state-of-the-art models-including those from OpenAI, Anthropic, Google Gemini, Meta, and prominent open-source alternatives-uncovers significant variations in resilience to TTI attacks, with only select architectures exhibiting substantial inherent robustness. Our automated blackbox evaluation framework also uncovers previously unknown model specific vulnerabilities and attack surface patterns, especially within medical and high stakes domains. We further compare TTI against established adversarial prompting methods and detail practical mitigation strategies, such as session level context aggregation and deep alignment approaches. Our study underscores the urgent need for holistic, context aware defenses and continuous adversarial testing to future proof LLM deployments against evolving multi-turn threats.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ますますセンシティブなワークフローに統合され、敵の堅牢性と安全性に対する関心を高めている。本稿では, 対向意図を分離された相互作用に分散することにより, ステートレスなモデレーションを体系的に活用する, 新たなマルチターン攻撃手法であるTransient Turn Injection(TTI)を紹介する。 TTIは、大規模言語モデルを利用した自動攻撃エージェントを活用して、商用およびオープンソースのLLMのポリシー適用を反復的にテストし、回避する。 OpenAI、Anthropic、Google Gemini、Meta、および著名なオープンソース代替製品を含む、最先端モデルの広範な評価により、TTI攻撃に対するレジリエンスの大きなバリエーションが明らかになりました。我々の自動ブラックボックス評価フレームワークは、特に医療や高利得領域において、これまで未知のモデル固有の脆弱性と攻撃面パターンを明らかにします。さらに、TTIと、セッションレベルのコンテキストアグリゲーションやディープアライメントアプローチといった、既存の対向的プロンプト手法を比較し、実践的な緩和戦略の詳細を述べる。本研究は, マルチターン脅威に対するLCMの展開を実証するために, 包括的, 状況に配慮した防御, 継続的な敵視試験の必要性を緊急に強調するものである。

関連論文リスト

Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文参考訳（メタデータ） (2026-04-07T08:43:36Z)
OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。 OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文参考訳（メタデータ） (2026-01-04T16:41:33Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文参考訳（メタデータ） (2025-03-18T22:30:17Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。