論文の概要: The Trust Paradox in LLM-Based Multi-Agent Systems: When Collaboration Becomes a Security Vulnerability
- arxiv url: http://arxiv.org/abs/2510.18563v1
- Date: Tue, 21 Oct 2025 12:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.465998
- Title: The Trust Paradox in LLM-Based Multi-Agent Systems: When Collaboration Becomes a Security Vulnerability
- Title(参考訳): LLMベースのマルチエージェントシステムにおけるトラストパラドックス:コラボレーションがセキュリティ脆弱性になるとき
- Authors: Zijie Xu, Minfeng Qi, Shiqing Wu, Lefeng Zhang, Qiwen Wei, Han He, Ningran Li,
- Abstract要約: 我々はTrust-Vulnerability Paradox(TVP)を紹介し,実証的に検証する。
TVP: 調整を強化するためのエージェント間信頼の増大は、過剰な露出と過剰な認可のリスクを同時に拡大する。
本研究は,TVPを定式化し,統一されたメトリクスで再現可能なベースラインを確立するとともに,マルチエージェントシステム設計において,信頼性を第一級セキュリティ変数としてモデル化し,スケジュールする必要があることを示す。
- 参考スコア(独自算出の注目度): 7.452202188661883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems powered by large language models are advancing rapidly, yet the tension between mutual trust and security remains underexplored. We introduce and empirically validate the Trust-Vulnerability Paradox (TVP): increasing inter-agent trust to enhance coordination simultaneously expands risks of over-exposure and over-authorization. To investigate this paradox, we construct a scenario-game dataset spanning 3 macro scenes and 19 sub-scenes, and run extensive closed-loop interactions with trust explicitly parameterized. Using Minimum Necessary Information (MNI) as the safety baseline, we propose two unified metrics: Over-Exposure Rate (OER) to detect boundary violations, and Authorization Drift (AD) to capture sensitivity to trust levels. Results across multiple model backends and orchestration frameworks reveal consistent trends: higher trust improves task success but also heightens exposure risks, with heterogeneous trust-to-risk mappings across systems. We further examine defenses such as Sensitive Information Repartitioning and Guardian-Agent enablement, both of which reduce OER and attenuate AD. Overall, this study formalizes TVP, establishes reproducible baselines with unified metrics, and demonstrates that trust must be modeled and scheduled as a first-class security variable in multi-agent system design.
- Abstract(参考訳): 大規模言語モデルを用いたマルチエージェントシステムは急速に進歩しているが、相互信頼とセキュリティの緊張関係は未解明のままである。
我々は,信頼・脆弱性パラドックス(TVP:Trust-Vulnerability Paradox)を導入し,実証的に検証する。
このパラドックスを解析するために、3つのマクロシーンと19のサブシーンにまたがるシナリオゲームデータセットを構築し、信頼度を明示的にパラメータ化した広範囲なクローズドループインタラクションを実行する。
安全基準としてMNI(Minimum Necessary Information)を用いて,境界違反を検出するOER(Over-Exposure Rate)と,信頼レベルに対する感受性を捉えるAD(Authorization Drift)の2つの統合メトリクスを提案する。
複数のモデルバックエンドとオーケストレーションフレームワークにまたがる結果は、一貫したトレンドを明らかにしている。
我々はさらに、OERを減らし、ADを弱める、感性情報分割やガーディアン・エージェント・イネーブメントなどの防衛について検討する。
本研究は、TVPを形式化し、統一されたメトリクスで再現可能なベースラインを確立するとともに、マルチエージェントシステム設計において、信頼を第一級セキュリティ変数としてモデル化し、スケジュールする必要があることを示す。
関連論文リスト
- Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Simulating and Understanding Deceptive Behaviors in Long-Horizon Interactions [18.182800471968132]
大規模言語モデルにおける偽造の探索と評価のための最初のシミュレーションフレームワークを紹介する。
11のフロンティアモデルで実験を行い、クローズドシステムとオープンソースシステムの両方にまたがっています。
詐欺はモデルに依存しており、イベントプレッシャーの増加とともに増加し、常に監督的信頼を損なう。
論文 参考訳(メタデータ) (2025-10-05T02:18:23Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Bayesian Methods for Trust in Collaborative Multi-Agent Autonomy [11.246557832016238]
安全クリティカルで競争の激しい環境では、敵は多数のエージェントに侵入し、妥協することがある。
我々は、この妥協されたエージェント脅威モデルの下で、アートマルチターゲット追跡アルゴリズムの状態を解析する。
階層的ベイズ更新を用いた信頼度推定フレームワークを設計する。
論文 参考訳(メタデータ) (2024-03-25T17:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。