Fugu-MT 論文翻訳(概要): Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models

論文の概要: Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models

arxiv url: http://arxiv.org/abs/2503.15560v1
Date: Tue, 18 Mar 2025 22:30:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.097037
Title: Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models
Title（参考訳）: 時間的文脈認識:大規模言語モデルにおけるマルチターン操作攻撃に対する防御フレームワーク
Authors: Prashant Kulkarni, Assaf Namer,
Abstract要約: 大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) are increasingly vulnerable to sophisticated multi-turn manipulation attacks, where adversaries strategically build context through seemingly benign conversational turns to circumvent safety measures and elicit harmful or unauthorized responses. These attacks exploit the temporal nature of dialogue to evade single-turn detection methods, representing a critical security vulnerability with significant implications for real-world deployments. This paper introduces the Temporal Context Awareness (TCA) framework, a novel defense mechanism designed to address this challenge by continuously analyzing semantic drift, cross-turn intention consistency and evolving conversational patterns. The TCA framework integrates dynamic context embedding analysis, cross-turn consistency verification, and progressive risk scoring to detect and mitigate manipulation attempts effectively. Preliminary evaluations on simulated adversarial scenarios demonstrate the framework's potential to identify subtle manipulation patterns often missed by traditional detection techniques, offering a much-needed layer of security for conversational AI systems. In addition to outlining the design of TCA , we analyze diverse attack vectors and their progression across multi-turn conversation, providing valuable insights into adversarial tactics and their impact on LLM vulnerabilities. Our findings underscore the pressing need for robust, context-aware defenses in conversational AI systems and highlight TCA framework as a promising direction for securing LLMs while preserving their utility in legitimate applications. We make our implementation available to support further research in this emerging area of AI security.
Abstract（参考訳）: 大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱になっている。これらの攻撃は、対話の時間的性質を利用してシングルターン検出方法を避け、現実世界のデプロイメントに重大な影響を及ぼす重要なセキュリティ脆弱性を表現している。本稿では,この課題に対処するための新しい防御機構であるテンポラル・コンテキスト・アウェアネス(TCA)フレームワークを紹介し,セマンティック・ドリフト,クロスターン意図整合性,会話パターンの進化を継続的に分析する。 TCAフレームワークは動的コンテキスト埋め込み分析、クロスターン整合性検証、プログレッシブリスクスコアリングを統合して、操作を効果的に検出し緩和する。シミュレーションされた敵シナリオに関する予備的な評価は、従来の検出技術でしばしば見逃される微妙な操作パターンを識別するフレームワークの可能性を示し、会話型AIシステムのセキュリティ層を提供する。 TCAの設計の概要に加えて、多様な攻撃ベクトルと多ターン会話の進行を分析し、敵の戦術とLLM脆弱性への影響について貴重な洞察を提供する。我々の発見は、会話型AIシステムにおける堅牢でコンテキスト対応の防御の必要性を強調し、合法的なアプリケーションでそれらのユーティリティを保ちながらLLMを保護するための有望な方向としてTCAフレームワークを強調した。このAIセキュリティの新たな領域におけるさらなる研究を支援するために、当社の実装を利用可能にしています。

関連論文リスト

CLIProv: A Contrastive Log-to-Intelligence Multimodal Approach for Threat Detection and Provenance Analysis [6.680853786327484]
本稿では,ホストシステムにおける脅威行動を検出する新しいアプローチであるCLIProvを紹介する。脅威インテリジェンスに攻撃パターン情報を活用することで、CLIProvはTTPを特定し、完全かつ簡潔な攻撃シナリオを生成する。最先端の手法と比較して、CLIProvは精度が高く、検出効率が大幅に向上している。
論文参考訳（メタデータ） (2025-07-12T04:20:00Z)
ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文参考訳（メタデータ） (2025-06-17T10:55:17Z)
Attack and defense techniques in large language models: A survey and new perspectives [5.600972861188751]
大規模言語モデル(LLM)は多くの自然言語処理タスクの中心となっているが、その脆弱性はセキュリティと倫理的課題を呈している。この体系的な調査は、LLMにおける攻撃と防御技術の進化の展望を探求する。
論文参考訳（メタデータ） (2025-05-02T03:37:52Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
Robust Intrusion Detection System with Explainable Artificial Intelligence [0.0]
逆入力は、標準インターフェイスを通じて機械学習(ML)モデルを利用することができる。敵の訓練のような従来の防御は、計算的な用語で費用がかかるため、しばしばリアルタイム検出の提供に失敗する。 eXplainable Artificial Intelligence (XAI) を用いた敵攻撃の検出と緩和のための新しい戦略を提案する。
論文参考訳（メタデータ） (2025-03-07T10:31:59Z)
Jailbreaking is (Mostly) Simpler Than You Think [2.7174461714624805]
我々は、AIの安全性メカニズムをバイパスする新しい最適化不要な手法であるContext Compliance Attack (CCA)を紹介する。 CCAは、多くのデプロイされたAIシステムに固有の基本的なアーキテクチャ上の脆弱性を利用する。
論文参考訳（メタデータ） (2025-03-07T09:28:19Z)
AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks [13.082370325093242]
我々は,サイバー脅威インテリジェンス(CTI)レポートにおいて,攻撃シーケンスの理解と推論を行うLarge Language Models(LLM)能力を評価するためのベンチマークであるAttackSeqBenchを紹介する。本ベンチマークでは,3つの質問応答(QA)タスクを対象とし,各タスクは,相手行動の粒度の違いに焦点をあてる。サイバー攻撃のシーケンシャルなパターンを分析する上での、その強みと限界を強調しながら、高速思考とスロー思考の両方で広範な実験と分析を行う。
論文参考訳（メタデータ） (2025-03-05T04:25:21Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文参考訳（メタデータ） (2023-10-16T21:37:24Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。