論文の概要: Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2510.02712v1
- Date: Fri, 03 Oct 2025 04:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.259486
- Title: Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks
- Title(参考訳): 時間と一貫性: 敵攻撃に対する大規模言語モデルロバストネスの生存分析
- Authors: Yubo Li, Ramayya Krishnan, Rema Padman,
- Abstract要約: 対話型AIの強靭性に関する総合的サバイバル分析を行い,9つの最先端LCMの会話を36,951回解析した。
突発的,即発的(prompt-to-prompt)なセマンティックドリフトは破滅的であり,会話障害の危険性を劇的に高める。
相互作用を持つAFTモデルは優れた性能を示し、優れた識別と例外的な校正を実現している。
- 参考スコア(独自算出の注目度): 8.86745721473138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized conversational AI, yet their robustness in extended multi-turn dialogues remains poorly understood. Existing evaluation frameworks focus on static benchmarks and single-turn assessments, failing to capture the temporal dynamics of conversational degradation that characterize real-world interactions. In this work, we present the first comprehensive survival analysis of conversational AI robustness, analyzing 36,951 conversation turns across 9 state-of-the-art LLMs to model failure as a time-to-event process. Our survival modeling framework-employing Cox proportional hazards, Accelerated Failure Time, and Random Survival Forest approaches-reveals extraordinary temporal dynamics. We find that abrupt, prompt-to-prompt(P2P) semantic drift is catastrophic, dramatically increasing the hazard of conversational failure. In stark contrast, gradual, cumulative drift is highly protective, vastly reducing the failure hazard and enabling significantly longer dialogues. AFT models with interactions demonstrate superior performance, achieving excellent discrimination and exceptional calibration. These findings establish survival analysis as a powerful paradigm for evaluating LLM robustness, offer concrete insights for designing resilient conversational agents, and challenge prevailing assumptions about the necessity of semantic consistency in conversational AI Systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は会話型AIに革命をもたらしたが、拡張されたマルチターン対話における堅牢性はいまだに理解されていない。
既存の評価フレームワークは静的ベンチマークとシングルターンアセスメントに重点を置いており、現実世界のインタラクションを特徴付ける会話劣化の時間的ダイナミクスを捉えていない。
そこで本研究では,9つの最先端LLM間の36,951の会話を解析し,失敗を時間とイベントのプロセスとしてモデル化する,対話型AIロバスト性の最初の包括的サバイバル分析を提案する。
我々の生存モデリングフレームワークは、Cox比例ハザード、加速失敗時間、ランダムサバイバルフォレストアプローチ、異常時ダイナミクスである。
突発的,即発的(prompt-to-prompt)なセマンティックドリフトは破滅的であり,会話障害の危険性を劇的に高める。
対照的に、徐々に累積的なドリフトは高度に保護されており、失敗の危険性を大幅に減らし、はるかに長い対話を可能にしている。
相互作用を持つAFTモデルは優れた性能を示し、優れた識別と例外的な校正を実現している。
これらの知見は、LLMの堅牢性を評価するための強力なパラダイムとして生存分析を確立し、レジリエントな会話エージェントを設計するための具体的な洞察を提供し、会話型AIシステムにおける意味的一貫性の必要性に関する一般的な仮定に挑戦する。
関連論文リスト
- Mitigating Conversational Inertia in Multi-Turn Agents [47.35031006899519]
我々は,従来の応答に対して,モデルが強い対角的注意を示す現象である会話慣性を特定する。
本研究では,高慣性応答よりも低慣性応答を優先するために,モデル選好を校正するコンテキスト選好学習を提案する。
論文 参考訳(メタデータ) (2026-02-03T15:47:32Z) - The Anatomy of Conversational Scams: A Topic-Based Red Teaming Analysis of Multi-Turn Interactions in LLMs [3.7304174114240545]
シングルターン安全性評価が達成できないマルチターン会話詐欺の新たなリスクについて検討した。
英語と中国語の8つの最先端モデルを評価する。
その結果, スカム相互作用は繰り返しエスカレーションパターンに従っており, 防御には検証機構と遅延機構が用いられていることがわかった。
論文 参考訳(メタデータ) (2026-01-06T16:06:04Z) - MORE: Multi-Objective Adversarial Attacks on Speech Recognition [39.77140497042348]
Whisperのような大規模自動音声認識(ASR)モデルは、様々な現実世界のアプリケーションで採用を広げている。
したがって、小さな入力の摂動に対する堅牢性は、リアルタイム環境における信頼性の高い性能を維持するために重要である。
認識精度と推論効率を両立させる多目的反復倍増促進攻撃MOREを導入する。
論文 参考訳(メタデータ) (2026-01-05T07:27:57Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。
16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。
我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文 参考訳(メタデータ) (2025-05-20T14:18:56Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。
本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。
シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T22:30:17Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Exchange-of-Thought: Enhancing Large Language Model Capabilities through
Cross-Model Communication [76.04373033082948]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。
本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文 参考訳(メタデータ) (2023-12-04T11:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。