論文の概要: Reasoning-Style Poisoning of LLM Agents via Stealthy Style Transfer: Process-Level Attacks and Runtime Monitoring in RSV Space
- arxiv url: http://arxiv.org/abs/2512.14448v1
- Date: Tue, 16 Dec 2025 14:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.74907
- Title: Reasoning-Style Poisoning of LLM Agents via Stealthy Style Transfer: Process-Level Attacks and Runtime Monitoring in RSV Space
- Title(参考訳): ステルススタイル転送によるLCMエージェントの共振型ポゾン:RSV空間におけるプロセスレベルアタックと実行時モニタリング
- Authors: Xingfu Zhou, Pengfei Wang,
- Abstract要約: Reasoning-Style Poisoning (RSP)は、エージェントが処理するものよりも情報を処理する方法を操作する。
Generative Style Injection (GSI)は、検索した文書を病的トーンに書き換える。
RSP-Mは軽量なランタイムモニタで、RSVメトリクスをリアルタイムで計算し、安全性の閾値を超える値にアラートをトリガーする。
- 参考スコア(独自算出の注目度): 4.699272847316498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents relying on external retrieval are increasingly deployed in high-stakes environments. While existing adversarial attacks primarily focus on content falsification or instruction injection, we identify a novel, process-oriented attack surface: the agent's reasoning style. We propose Reasoning-Style Poisoning (RSP), a paradigm that manipulates how agents process information rather than what they process. We introduce Generative Style Injection (GSI), an attack method that rewrites retrieved documents into pathological tones--specifically "analysis paralysis" or "cognitive haste"--without altering underlying facts or using explicit triggers. To quantify these shifts, we develop the Reasoning Style Vector (RSV), a metric tracking Verification depth, Self-confidence, and Attention focus. Experiments on HotpotQA and FEVER using ReAct, Reflection, and Tree of Thoughts (ToT) architectures reveal that GSI significantly degrades performance. It increases reasoning steps by up to 4.4 times or induces premature errors, successfully bypassing state-of-the-art content filters. Finally, we propose RSP-M, a lightweight runtime monitor that calculates RSV metrics in real-time and triggers alerts when values exceed safety thresholds. Our work demonstrates that reasoning style is a distinct, exploitable vulnerability, necessitating process-level defenses beyond static content analysis.
- Abstract(参考訳): 外部検索に依存する大規模言語モデル (LLM) エージェントは, 高吸収環境においてますます多くデプロイされている。
既存の敵攻撃は、主に内容のファルシフィケーションやインストラクションインジェクションに焦点を当てるが、我々は、プロセス指向の新規な攻撃面、すなわちエージェントの推論スタイルを識別する。
本稿では,エージェントが処理対象ではなく情報を処理する方法を制御するパラダイムであるReasoning-Style Poisoning(RSP)を提案する。
本稿では,検索した文書を,特定の「分析的麻痺」や「認知的急激」に書き換える手法であるジェネレーティブ・スタイル・インジェクション(GSI)を導入する。
これらのシフトを定量化するために、検証深度、自己自信、注意集中を計測するRSV(Reasoning Style Vector)を開発した。
ReAct, Reflection, Tree of Thoughts (ToT) アーキテクチャを用いた HotpotQA と FEVER の実験により,GSI が性能を著しく低下させることが明らかになった。
推論ステップを最大4.4倍増加させるか、未熟なエラーを誘発し、最先端のコンテンツフィルタを回避できる。
最後に,RSVメトリクスをリアルタイムに計算し,安全性閾値を超える値の警告をトリガーする軽量ランタイムモニタであるRSP-Mを提案する。
我々の研究は、推論スタイルが、静的コンテンツ分析以上のプロセスレベルの防御を必要とする、はっきりとした、悪用可能な脆弱性であることを実証している。
関連論文リスト
- DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - CyberRAG: An Agentic RAG cyber attack classification and reporting tool [0.3914676152740142]
CyberRAGはモジュール型のエージェントベースのRAGフレームワークで、サイバー攻撃のリアルタイム分類、説明、構造化レポートを提供する。
従来のRAGとは異なり、CyberRAGは動的制御フローと適応推論を可能にするエージェント設計を採用している。
論文 参考訳(メタデータ) (2025-07-03T08:32:19Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - LLM-Based User Simulation for Low-Knowledge Shilling Attacks on Recommender Systems [28.559223475725137]
我々は,Large Language Model(LLM)ベースのエージェントを利用して,低知識かつ高インパクトなシリング攻撃を行う新しいフレームワークであるAgent4SRを紹介する。
Agent4SRは、対向的なインタラクションを編成し、アイテムを選択し、評価を割り当て、レビューを作成し、行動の妥当性を維持しながら、現実的なユーザ動作をシミュレートする。
以上の結果から,レコメンデーションシステムにおける防衛強化の必要性を浮き彫りにして,LSMを駆使したエージェントによる新たな緊急脅威の出現が示唆された。
論文 参考訳(メタデータ) (2025-05-18T04:40:34Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。