論文の概要: Adversarial Intent is a Latent Variable: Stateful Trust Inference for Securing Multimodal Agentic RAG
- arxiv url: http://arxiv.org/abs/2602.21447v1
- Date: Tue, 24 Feb 2026 23:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.644571
- Title: Adversarial Intent is a Latent Variable: Stateful Trust Inference for Securing Multimodal Agentic RAG
- Title(参考訳): 副次的インテントは潜伏変数である:マルチモーダルエージェントRAGの安定のためのステートフル信頼推論
- Authors: Inderjeet Singh, Vikas Pahuja, Aishvariya Priya Rathina Sabapathy, Chiara Picardi, Amit Giloni, Roman Vainshtein, Andrés Murillo, Hisashi Kojima, Motoyoshi Sekiya, Yuki Unno, Junichi Suga,
- Abstract要約: マルチモーダルエージェントRAGに対する現在のステートレスディフェンスは、悪意のあるセマンティクスを配布する敵の戦略を検出するのに失敗する。
MMA-RAGTは,MTA (Modular Trust Agent) が管理する推定時制御フレームワークで,ほぼ信頼状態を維持している。
- 参考スコア(独自算出の注目度): 5.4716896485317195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current stateless defences for multimodal agentic RAG fail to detect adversarial strategies that distribute malicious semantics across retrieval, planning, and generation components. We formulate this security challenge as a Partially Observable Markov Decision Process (POMDP), where adversarial intent is a latent variable inferred from noisy multi-stage observations. We introduce MMA-RAG^T, an inference-time control framework governed by a Modular Trust Agent (MTA) that maintains an approximate belief state via structured LLM reasoning. Operating as a model-agnostic overlay, MMA-RAGT mediates a configurable set of internal checkpoints to enforce stateful defence-in-depth. Extensive evaluation on 43,774 instances demonstrates a 6.50x average reduction factor in Attack Success Rate relative to undefended baselines, with negligible utility cost. Crucially, a factorial ablation validates our theoretical bounds: while statefulness and spatial coverage are individually necessary (26.4 pp and 13.6 pp gains respectively), stateless multi-point intervention can yield zero marginal benefit under homogeneous stateless filtering when checkpoint detections are perfectly correlated.
- Abstract(参考訳): マルチモーダルエージェントRAGの現在のステートレスディフェンスは、検索、計画、生成コンポーネント間で悪意のあるセマンティクスを分散する敵の戦略を検出できない。
我々は、このセキュリティ課題を、雑音の多い多段階観測から推定される逆方向の意図が潜伏変数である部分観測可能なマルコフ決定過程(POMDP)として定式化する。
我々は,MMA-RAG^T(Modular Trust Agent (MTA) が支配する推定時間制御フレームワーク)を紹介した。
モデルに依存しないオーバーレイとして運用されているMMA-RAGTは、ステートフルなディフェンス・イン・ディープスを強制するために、構成可能な内部チェックポイントセットを仲介する。
43,774インスタンスの大規模な評価は、未定義のベースラインに対するアタック成功率の平均6.50倍の削減係数を無視可能なユーティリティコストで示している。
重要なことに、因子的アブレーションは我々の理論的境界を検証している: ステートフルネスと空間的カバレッジは個別に必要である(それぞれ26.4 ppと13.6 ppのゲイン)が、チェックポイント検出が完全に相関している場合、ステートレス多点干渉は均質なステートレスフィルタリングの下でゼロマージンの利益をもたらす。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - GCP: Guarded Collaborative Perception with Spatial-Temporal Aware Malicious Agent Detection [11.336965062177722]
協調的知覚は、悪意のあるエージェントからの敵対的なメッセージ攻撃に対して脆弱である。
本稿では,既存の単発外乱検出手法を損なう新しい盲検領域混乱(BAC)攻撃を明らかにする。
本稿では、空間的時間的認識による悪意のあるエージェント検出に基づくガード付き協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-05T06:03:26Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap [3.351714665243138]
我々は,マルコフ決定過程(MDP)における非政治的評価の課題を再考し,分布重なりというより弱い概念の下で検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
我々の実験では、強い分布重なりが保たない場合、適切な乱れが、政治外の正確な評価を可能にする上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。