論文の概要: RerouteGuard: Understanding and Mitigating Adversarial Risks for LLM Routing
- arxiv url: http://arxiv.org/abs/2601.21380v1
- Date: Thu, 29 Jan 2026 08:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.662972
- Title: RerouteGuard: Understanding and Mitigating Adversarial Risks for LLM Routing
- Title(参考訳): RerouteGuard: LLMルーティングにおける敵対的リスクの理解と緩和
- Authors: Wenhui Zhang, Huiyu Xu, Zhibo Wang, Zhichao Li, Zeqing He, Xuelin Wei, Kui Ren,
- Abstract要約: LLMルータはLLMリルーティングの形で敵攻撃に対して脆弱である。
LLMリルーチンのためのフレキシブルでスケーラブルなガードレールフレームワークであるRerouteGuardを紹介します。
RerouteGuardは、最先端のリルーチン攻撃に対する検出精度を99%以上達成している。
- 参考スコア(独自算出の注目度): 20.559596977062146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multi-model AI systems have leveraged LLM routers to reduce computational cost while maintaining response quality by assigning queries to the most appropriate model. However, as classifiers, LLM routers are vulnerable to novel adversarial attacks in the form of LLM rerouting, where adversaries prepend specially crafted triggers to user queries to manipulate routing decisions. Such attacks can lead to increased computational cost, degraded response quality, and even bypass safety guardrails, yet their security implications remain largely underexplored. In this work, we bridge this gap by systematizing LLM rerouting threats based on the adversary's objectives (i.e., cost escalation, quality hijacking, and safety bypass) and knowledge. Based on the threat taxonomy, we conduct a measurement study of real-world LLM routing systems against existing LLM rerouting attacks. The results reveal that existing routing systems are vulnerable to rerouting attacks, especially in the cost escalation scenario. We then characterize existing rerouting attacks using interpretability techniques, revealing that they exploit router decision boundaries through confounder gadgets that prepend queries to force misrouting. To mitigate these risks, we introduce RerouteGuard, a flexible and scalable guardrail framework for LLM rerouting. RerouteGuard filters adversarial rerouting prompts via dynamic embedding-based detection and adaptive thresholding. Extensive evaluations in three attack settings and four benchmarks demonstrate that RerouteGuard achieves over 99% detection accuracy against state-of-the-art rerouting attacks, while maintaining negligible impact on legitimate queries. The experimental results indicate that RerouteGuard offers a principled and practical solution for safeguarding multi-model AI systems against adversarial rerouting.
- Abstract(参考訳): マルチモデルAIシステムの最近の進歩は、最も適切なモデルにクエリを割り当てることにより、応答品質を維持しながら計算コストを削減するためにLLMルータを活用している。
しかし、LLMルータは分類器として、LLMリルーティングの形で、新しい敵攻撃に対して脆弱である。
このような攻撃は、計算コストの増大、応答品質の低下、さらには安全ガードレールのバイパスにもつながり得るが、そのセキュリティへの影響は未解明のままである。
本研究では, 敵の目標(コストエスカレーション, 品質ハイジャック, 安全バイパス)と知識に基づいて, LLM の脅威を体系化することで, このギャップを埋める。
本研究は,脅威分類に基づく実世界のLLMルーティングシステムを,既存のLLMリルーティング攻撃に対して測定する。
その結果、既存のルーティングシステムは、特にコストエスカレーションシナリオにおいて、リルーチン攻撃に対して脆弱であることが判明した。
次に、解釈可能性技術を用いて既存のリルーティング攻撃を特徴付け、クエリをプリペイドして不正処理を強制する、共同ファウンダーガジェットを通じてルータ決定境界を悪用していることを明らかにする。
これらのリスクを軽減するために、LLMリルーチンのためのフレキシブルでスケーラブルなガードレールフレームワークであるRerouteGuardを紹介します。
RerouteGuardは動的埋め込みベースの検出と適応しきい値設定を通じて、逆リルーチンプロンプトをフィルタする。
3つのアタック設定と4つのベンチマークによる大規模な評価は、RerouteGuardが正当性のあるクエリに対する無視可能な影響を維持しながら、最先端のリルーチン攻撃に対する99%以上の検出精度を達成したことを示している。
実験結果から,RerouteGuardは,対戦型リルーチンに対するマルチモデルAIシステムを保護するための,原則的かつ実用的なソリューションを提供することが示された。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - MalRAG: A Retrieval-Augmented LLM Framework for Open-set Malicious Traffic Identification [15.302665374408553]
MalRAGは、オープンセットの悪意のあるトラフィック識別のための検索強化フレームワークである。
コンテンツ, 構造, 時間的視点から, 悪意のあるトラフィックをマイニングすることで, マルチビュートラフィックデータベースを構築する。
我々は、トラフィック認識類似度スコアに基づいて、これらの候補の可変サブセットを選択するために、トラフィック認識適応プルーニングを用いる。
論文 参考訳(メタデータ) (2025-11-18T04:25:16Z) - Black-Box Guardrail Reverse-engineering Attack [12.937652779951156]
ブラックボックスLLMガードレールのリバースエンジニアリング攻撃に関する最初の研究を行った。
強化学習に基づくフレームワークであるガードレールリバースエンジニアリングアタック(GRA)を提案する。
GRAは、APIコストが85ドル未満で、規則マッチングレートが0.92を超えている。
論文 参考訳(メタデータ) (2025-11-06T09:24:49Z) - SBASH: a Framework for Designing and Evaluating RAG vs. Prompt-Tuned LLM Honeypots [0.0]
ハニーポット(Honeypots)は、価値ある脅威情報を集めたり、攻撃者を生産システムから遠ざけるために使われるデコイシステムである。
本稿では,軽量なローカルLCMを用いてデータ保護問題を管理するシステムベース注意型シェルハニーポットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:41:52Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。