論文の概要: A Wolf in Sheep's Clothing: Targeted Routing Hijacking in Federated RAG
- arxiv url: http://arxiv.org/abs/2605.28112v1
- Date: Wed, 27 May 2026 08:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.869177
- Title: A Wolf in Sheep's Clothing: Targeted Routing Hijacking in Federated RAG
- Title(参考訳): Sheep's Clothingの狼:Federated RAGにおけるターゲティング・ルーティング・ハイジャック
- Authors: Junjie Mu, Qiongxiu Li,
- Abstract要約: Federated Retrieval-Augmented Generation (FedRAG)は、プライバシに敏感なアプリケーションにとって、生データはローカルのままであるため魅力的である。
本稿では、不正なクライアントがプロファイルを偽造してターゲットクエリを引き付けるルーティングステージアタックであるルーティングハイジャックについて紹介する。
- 参考スコア(独自算出の注目度): 10.522910767691918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Retrieval-Augmented Generation (FedRAG) is attractive for privacy-sensitive applications because raw data remain local. As a result, routing must rely on client-provided semantic profiles, creating a new opportunity for manipulation. We introduce Routing Hijacking, a routing-stage attack in which a malicious client forges its profile to attract target queries despite having irrelevant underlying data. We show that this vulnerability is severe. Across three representative FedRAG routing architectures, Routing Hijacking consistently misroutes target queries and leads to downstream disruptions and failures, including missing evidence, poisoning, incorrect answers, and hallucinations. In a high-stakes MedQA-USMLE case study, we further show that poisoned retrieved evidence can mislead models across scales, leading to incorrect answers, hallucinations, and sycophantic failures. Existing defenses do not close this gap: encrypted routing preserves the exploited ranking, and Byzantine-robust Federated Learning (FL) rules transfer poorly to heterogeneous routing profiles. To address this gap, we propose a trust-aware post-routing framework that reweights clients using returned-evidence feedback, including retrieval relevance, profile consistency, and cross-client agreement; online experiments show that it suppresses persistent hijacking over recurring queries and transfers to a learned neural router. Our findings establish routing integrity as a new security challenge in FedRAG and highlight the need for stronger defenses for secure federated retrieval.
- Abstract(参考訳): Federated Retrieval-Augmented Generation (FedRAG)は、プライバシに敏感なアプリケーションにとって、生データはローカルのままであるため魅力的である。
その結果、ルーティングはクライアントが提供するセマンティックプロファイルに依存しなければなりません。
本稿では、不正なクライアントがプロファイルを偽造してターゲットクエリを引き付けるルーティングステージアタックであるルーティングハイジャックについて紹介する。
この脆弱性は深刻である。
3つの代表的なFedRAGルーティングアーキテクチャの中で、ルーティングハイジャックは、常にターゲットクエリを不正に処理し、ダウンストリームの破壊と失敗につながります。
MedQA-USMLE の高用量ケーススタディでは,有毒な証拠がスケールのモデルを誤認し,誤答,幻覚,および幻覚の失敗を招きかねないことが示されている。
暗号化ルーティングは、悪用されたランキングを保持し、Byzantine-robust Federated Learning (FL)ルールは、不均一なルーティングプロファイルに貧弱に転送される。
このギャップに対処するために、検索関連性、プロファイル整合性、クロスクライアント契約を含む、リターンエビデンスフィードバックを用いてクライアントを重み付けする信頼意識のポストルーティングフレームワークを提案する。
本研究は、FedRAGにおける新たなセキュリティ課題としてルーティング整合性を確立し、セキュアなフェデレーション検索のための強力な防御の必要性を強調した。
関連論文リスト
- Misrouter: Exploiting Routing Mechanisms for Input-Only Attacks on Mixture-of-Experts LLMs [26.925535006021402]
Mixture-of-Experts (MoE)アーキテクチャは、疎結合なルーティングベースの計算によって、大規模言語モデルをスケールするための主要なパラダイムとして登場した。
MoEルーティングは、入力のみの攻撃によって、現実世界のサービスにおいてより強力な安全でない振る舞いを引き起こすことができる。
そこで我々はMisrouterを提案する。Misrouterは入力のみの攻撃フレームワークで、ルーティング動作とエキスパート機能の共同ターゲットである。
論文 参考訳(メタデータ) (2026-05-06T03:21:38Z) - Beyond Semantic Relevance: Counterfactual Risk Minimization for Robust Retrieval-Augmented Generation [19.888565537472363]
CoRM-RAG(Counterfactual Risk Minimization for RAG)は、検索と意思決定の安全性を一致させるフレームワークである。
トレーニング中にユーザのバイアスをシミュレートする認知摂動プロトコルを導入し,それを軽量なエビデンス・クリティカルに蒸留する。
このスコアリングモジュールは、対向的なクエリの摂動にも拘わらず、モデルの正しさを判断するために十分な明らかな強度を持つ文書を特定することを学習する。
論文 参考訳(メタデータ) (2026-05-02T07:22:24Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - ProtegoFed: Backdoor-Free Federated Instruction Tuning with Interspersed Poisoned Data [50.142067708131826]
Federated Instruction Tuning (FIT)は、複数の組織(組織)にまたがる大規模な言語モデルの、プライベートなインストラクションの共有を必要とせずに、クロスサイロ環境での協調的なインストラクションチューニングを可能にする。
最近の研究では、有毒なサンプルが現実世界のデータセットに広範に埋め込まれており、たとえクライアントが良心的であっても、すべてのクライアントに分散している可能性が示唆されている。
ProtegoFedは、トレーニング中にクライアント間で汚染されたデータを正確に検出・浄化・分散する最初のバックドアフリーFITフレームワークである。
論文 参考訳(メタデータ) (2026-02-28T07:25:32Z) - RerouteGuard: Understanding and Mitigating Adversarial Risks for LLM Routing [20.559596977062146]
LLMルータはLLMリルーティングの形で敵攻撃に対して脆弱である。
LLMリルーチンのためのフレキシブルでスケーラブルなガードレールフレームワークであるRerouteGuardを紹介します。
RerouteGuardは、最先端のリルーチン攻撃に対する検出精度を99%以上達成している。
論文 参考訳(メタデータ) (2026-01-29T08:17:08Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Defending the Edge: Representative-Attention for Mitigating Backdoor Attacks in Federated Learning [7.808916974942399]
不均一エッジデバイスは、多種多様で非独立で、同一に分散された(非IID)データを生成する。
本稿では, 悪意のあるクライアントと良識を区別するための, FeRA という, 表現力に基づく防衛機構を提案する。
本評価では,エッジデバイスに典型的な非IIDデータ分散に挑戦するなど,さまざまなFLシナリオにおけるFeRAの堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-15T13:44:32Z) - EmInspector: Combating Backdoor Attacks in Federated Self-Supervised Learning Through Embedding Inspection [53.25863925815954]
フェデレートされた自己教師付き学習(FSSL)は、クライアントの膨大な量の未ラベルデータの利用を可能にする、有望なパラダイムとして登場した。
FSSLはアドバンテージを提供するが、バックドア攻撃に対する感受性は調査されていない。
ローカルモデルの埋め込み空間を検査し,悪意のあるクライアントを検知する埋め込み検査器(EmInspector)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。