論文の概要: Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2510.02712v1
- Date: Fri, 03 Oct 2025 04:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.259486
- Title: Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks
- Title(参考訳): 時間と一貫性: 敵攻撃に対する大規模言語モデルロバストネスの生存分析
- Authors: Yubo Li, Ramayya Krishnan, Rema Padman,
- Abstract要約: 対話型AIの強靭性に関する総合的サバイバル分析を行い,9つの最先端LCMの会話を36,951回解析した。
突発的,即発的(prompt-to-prompt)なセマンティックドリフトは破滅的であり,会話障害の危険性を劇的に高める。
相互作用を持つAFTモデルは優れた性能を示し、優れた識別と例外的な校正を実現している。
- 参考スコア(独自算出の注目度): 8.86745721473138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized conversational AI, yet their robustness in extended multi-turn dialogues remains poorly understood. Existing evaluation frameworks focus on static benchmarks and single-turn assessments, failing to capture the temporal dynamics of conversational degradation that characterize real-world interactions. In this work, we present the first comprehensive survival analysis of conversational AI robustness, analyzing 36,951 conversation turns across 9 state-of-the-art LLMs to model failure as a time-to-event process. Our survival modeling framework-employing Cox proportional hazards, Accelerated Failure Time, and Random Survival Forest approaches-reveals extraordinary temporal dynamics. We find that abrupt, prompt-to-prompt(P2P) semantic drift is catastrophic, dramatically increasing the hazard of conversational failure. In stark contrast, gradual, cumulative drift is highly protective, vastly reducing the failure hazard and enabling significantly longer dialogues. AFT models with interactions demonstrate superior performance, achieving excellent discrimination and exceptional calibration. These findings establish survival analysis as a powerful paradigm for evaluating LLM robustness, offer concrete insights for designing resilient conversational agents, and challenge prevailing assumptions about the necessity of semantic consistency in conversational AI Systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は会話型AIに革命をもたらしたが、拡張されたマルチターン対話における堅牢性はいまだに理解されていない。
既存の評価フレームワークは静的ベンチマークとシングルターンアセスメントに重点を置いており、現実世界のインタラクションを特徴付ける会話劣化の時間的ダイナミクスを捉えていない。
そこで本研究では,9つの最先端LLM間の36,951の会話を解析し,失敗を時間とイベントのプロセスとしてモデル化する,対話型AIロバスト性の最初の包括的サバイバル分析を提案する。
我々の生存モデリングフレームワークは、Cox比例ハザード、加速失敗時間、ランダムサバイバルフォレストアプローチ、異常時ダイナミクスである。
突発的,即発的(prompt-to-prompt)なセマンティックドリフトは破滅的であり,会話障害の危険性を劇的に高める。
対照的に、徐々に累積的なドリフトは高度に保護されており、失敗の危険性を大幅に減らし、はるかに長い対話を可能にしている。
相互作用を持つAFTモデルは優れた性能を示し、優れた識別と例外的な校正を実現している。
これらの知見は、LLMの堅牢性を評価するための強力なパラダイムとして生存分析を確立し、レジリエントな会話エージェントを設計するための具体的な洞察を提供し、会話型AIシステムにおける意味的一貫性の必要性に関する一般的な仮定に挑戦する。
関連論文リスト
- FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。
16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。
我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文 参考訳(メタデータ) (2025-05-20T14:18:56Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。
本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。
シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T22:30:17Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。