論文の概要: Asking Forever: Universal Activations Behind Turn Amplification in Conversational LLMs
- arxiv url: http://arxiv.org/abs/2602.17778v1
- Date: Thu, 19 Feb 2026 19:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.11545
- Title: Asking Forever: Universal Activations Behind Turn Amplification in Conversational LLMs
- Title(参考訳): ユニバーサルなアクティベーションは会話のLLMを増幅する
- Authors: Zachary Coalson, Bo Fang, Sanghyun Hong,
- Abstract要約: 本稿では,モデルが基礎となるタスクを完了させることなく,連続的にマルチターン相互作用を延長するターン増幅法を提案する。
敵は、明確化探索行動を体系的に活用できることを示す。
既存の防衛は、この新たなタイプの障害に対して限定的な保護を提供することを示す。
- 参考スコア(独自算出の注目度): 6.424852635631596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn interaction length is a dominant factor in the operational costs of conversational LLMs. In this work, we present a new failure mode in conversational LLMs: turn amplification, in which a model consistently prolongs multi-turn interactions without completing the underlying task. We show that an adversary can systematically exploit clarification-seeking behavior$-$commonly encouraged in multi-turn conversation settings$-$to scalably prolong interactions. Moving beyond prompt-level behaviors, we take a mechanistic perspective and identify a query-independent, universal activation subspace associated with clarification-seeking responses. Unlike prior cost-amplification attacks that rely on per-turn prompt optimization, our attack arises from conversational dynamics and persists across prompts and tasks. We show that this mechanism provides a scalable pathway to induce turn amplification: both supply-chain attacks via fine-tuning and runtime attacks through low-level parameter corruptions consistently shift models toward abstract, clarification-seeking behavior across prompts. Across multiple instruction-tuned LLMs and benchmarks, our attack substantially increases turn count while remaining compliant. We also show that existing defenses offer limited protection against this emerging class of failures.
- Abstract(参考訳): 対話型LLMの運用コストにおいて,マルチターン相互作用長が重要な要因である。
そこで本研究では,対話型LLMにおける新しい障害モードとして,モデルが下位タスクを完了せずに連続的にマルチターンインタラクションを延長する,ターン増幅を提案する。
対戦相手は,多ターン会話設定において,明確化探索行動$-$commonlyに推奨される$-$to scalablyな相互作用を体系的に活用できることを示す。
アクシデントレベルの振る舞いを超えて、メカニスティックな視点を採り、明確化探索応答に関連するクエリ非依存で普遍的なアクティベーション部分空間を同定する。
ターン毎のプロンプト最適化に依存する以前のコスト増幅攻撃とは異なり、我々の攻撃は会話のダイナミクスから発生し、プロンプトとタスクをまたいで持続する。
我々は,この機構がターン増幅を誘導するスケーラブルな経路を提供することを示す: 微調整によるサプライチェーン攻撃と低レベルのパラメータ汚職による実行時攻撃の両方が,プロンプトをまたいだ抽象的,明確化-探索的な動作へとモデルを一貫したシフトさせる。
複数の命令チューニング LLM とベンチマークで、我々の攻撃は、コンプライアンスを維持しながらターン数を大幅に増加させます。
我々はまた、既存の防衛が、この新たなタイプの障害に対して限定的な保護を提供することも示している。
関連論文リスト
- Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation [26.91734024759386]
根本原因は本質的な能力不足というよりも,意図的なアライメントギャップにある,と我々は主張する。
本稿では,Mediator-Assistantアーキテクチャによるタスク実行から意図的理解を分離することを提案する。
論文 参考訳(メタデータ) (2026-02-07T03:41:04Z) - Mitigating Conversational Inertia in Multi-Turn Agents [47.35031006899519]
我々は,従来の応答に対して,モデルが強い対角的注意を示す現象である会話慣性を特定する。
本研究では,高慣性応答よりも低慣性応答を優先するために,モデル選好を校正するコンテキスト選好学習を提案する。
論文 参考訳(メタデータ) (2026-02-03T15:47:32Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models [32.099137908375546]
ClarifyMT-Benchは、大規模言語モデル(LLM)におけるマルチターン明確化のためのベンチマークである。
多様なあいまいさソースと相互作用パターンをキャプチャする6,120個のマルチターン対話を構築した。
textbfClarifyAgentは,認知,予測,追跡,計画に明確化を分解するエージェントアプローチである。
論文 参考訳(メタデータ) (2025-12-24T11:39:00Z) - Steering in the Shadows: Causal Amplification for Activation Space Attacks in Large Language Models [8.92145245069646]
本稿では,デコーダのみの大規模言語モデル(LLM)における中間的アクティベーションが,行動制御のための脆弱な攻撃面を形成することを示す。
我々はこれを、段階的なアクティベーションレベル攻撃であるSensitivity-Scaled Steering (SSS)による攻撃面として活用する。
SSSは,高いコヒーレンスと汎用性を維持しつつ,悪,幻覚,覚醒,情緒に大きな変化をもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-21T12:19:55Z) - SecInfer: Preventing Prompt Injection via Inference-time Scaling [54.21558811232143]
emphSecInferは,インセンジェンス時間スケーリングに基づくインジェクション攻撃に対する新しい防御法である。
SecInferは、既存のインジェクション攻撃と適応的なインジェクション攻撃の両方を効果的に軽減し、最先端の防御と既存の推論時間スケーリングアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:00:41Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。
我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。
LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文 参考訳(メタデータ) (2025-01-01T10:16:10Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。