論文の概要: State-Dependent Safety Failures in Multi-Turn Language Model Interaction
- arxiv url: http://arxiv.org/abs/2603.15684v1
- Date: Sun, 15 Mar 2026 12:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.882359
- Title: State-Dependent Safety Failures in Multi-Turn Language Model Interaction
- Title(参考訳): マルチターン言語モデル相互作用における状態依存型安全性障害
- Authors: Pengcheng Li, Jie Zhang, Tianwei Zhang, Han Qiu, Zhang kejun, Weiming Zhang, Nenghai Yu, Wenbo Zhou,
- Abstract要約: 我々は、状態空間の観点から安全性障害を研究し、多くのマルチターン障害が構造化状態の進化から生じることを示す。
本稿では,対話履歴を状態遷移演算子として扱う状態指向診断フレームワークSTARを紹介する。
静的な評価の下で頑健なように見えるシステムは、構造化されたマルチターン相互作用の下で、迅速かつ再現可能な安全破壊を受けることができる。
- 参考スコア(独自算出の注目度): 70.52906620450847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in large language models is typically evaluated under isolated queries, yet real-world use is inherently multi-turn. Although multi-turn jailbreaks are empirically effective, the structure of conversational safety failure remains insufficiently understood. In this work, we study safety failures from a state-space perspective and show that many multi-turn failures arise from structured contextual state evolution rather than isolated prompt vulnerabilities. We introduce STAR, a state-oriented diagnostic framework that treats dialogue history as a state transition operator and enables controlled analysis of safety behavior along interaction trajectories. Rather than optimizing attack strength, STAR provides a principled probe of how aligned models traverse the safety boundary under autoregressive conditioning. Across multiple frontier language models, we find that systems that appear robust under static evaluation can undergo rapid and reproducible safety collapse under structured multi-turn interaction. Mechanistic analysis reveals monotonic drift away from refusal-related representations and abrupt phase transitions induced by role-conditioned context. Together, these findings motivate viewing language model safety as a dynamic, state-dependent process defined over conversational trajectories.
- Abstract(参考訳): 大規模言語モデルの安全性アライメントは通常、独立したクエリで評価されるが、実際の使用は本質的にマルチターンである。
マルチターンジェイルブレイクは経験的に有効であるが、会話の安全性障害の構造は十分に理解されていない。
本研究では、状態空間の観点から安全性障害を調査し、多くのマルチターン障害が、孤立した急激な脆弱性ではなく、構造化された状態の進化から生じることを示す。
本稿では,対話履歴を状態遷移演算子として扱う状態指向診断フレームワークSTARを紹介する。
攻撃強度を最適化する代わりに、STARは、アライメントモデルが自己回帰条件下での安全境界をいかに横切るかの原理的なプローブを提供する。
複数のフロンティア言語モデルにまたがって、静的評価の下で頑健に見えるシステムは、構造化されたマルチターン相互作用の下で、迅速かつ再現可能な安全破壊を受けることができる。
力学解析は、役割条件付きコンテキストによって引き起こされる拒絶関連表現と急激な相転移からモノトニックなドリフトが明らかになる。
これらの知見は,会話軌跡上で定義された動的,状態依存的なプロセスとして,言語モデルの安全性を動機付けている。
関連論文リスト
- CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs [10.42126976065225]
MLLM(Multimodal large language model)は、テキストと画像の相互作用を可能にする。
本稿では,クロスモーダル信頼性を評価するベンチマークであるCSR-Benchを紹介する。
我々は16の最先端MLLMを評価し,系統的な相互アライメントギャップを観察した。
論文 参考訳(メタデータ) (2026-02-03T08:49:44Z) - The Anatomy of Conversational Scams: A Topic-Based Red Teaming Analysis of Multi-Turn Interactions in LLMs [3.7304174114240545]
シングルターン安全性評価が達成できないマルチターン会話詐欺の新たなリスクについて検討した。
英語と中国語の8つの最先端モデルを評価する。
その結果, スカム相互作用は繰り返しエスカレーションパターンに従っており, 防御には検証機構と遅延機構が用いられていることがわかった。
論文 参考訳(メタデータ) (2026-01-06T16:06:04Z) - Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks [8.86745721473138]
対話型AIの強靭性に関する総合的サバイバル分析を行い,9つの最先端LCMの会話を36,951回解析した。
突発的,即発的(prompt-to-prompt)なセマンティックドリフトは破滅的であり,会話障害の危険性を劇的に高める。
相互作用を持つAFTモデルは優れた性能を示し、優れた識別と例外的な校正を実現している。
論文 参考訳(メタデータ) (2025-10-03T04:26:10Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。
本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。
シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T22:30:17Z) - Steering Language Model Refusal with Sparse Autoencoders [16.304363931580273]
この研究は、SAEステアリングに基づく安全改善と一般的なモデル機能との緊張関係を明らかにする。
本研究は,言語モデルにおける安全関連機能の性質に関する重要なオープンな疑問を明らかにするものである。
論文 参考訳(メタデータ) (2024-11-18T05:47:02Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。