論文の概要: Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2506.02546v1
- Date: Tue, 03 Jun 2025 07:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.787996
- Title: Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems
- Title(参考訳): 信頼する人を知る: LLMマルチエージェントシステムのための注意に基づく信頼管理
- Authors: Pengfei He, Zhenwei Dai, Xianfeng Tang, Yue Xing, Hui Liu, Jingying Zeng, Qiankun Peng, Shrivats Agrawal, Samarth Varshney, Suhang Wang, Jiliang Tang, Qi He,
- Abstract要約: LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
- 参考スコア(独自算出の注目度): 52.57826440085856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model-based Multi-Agent Systems (LLM-MAS) have demonstrated strong capabilities in solving complex tasks but remain vulnerable when agents receive unreliable messages. This vulnerability stems from a fundamental gap: LLM agents treat all incoming messages equally without evaluating their trustworthiness. While some existing studies approach the trustworthiness, they focus on a single type of harmfulness rather than analyze it in a holistic approach from multiple trustworthiness perspectives. In this work, we propose Attention Trust Score (A-Trust), a lightweight, attention-based method for evaluating message trustworthiness. Inspired by human communication literature[1], through systematically analyzing attention behaviors across six orthogonal trust dimensions, we find that certain attention heads in the LLM specialize in detecting specific types of violations. Leveraging these insights, A-Trust directly infers trustworthiness from internal attention patterns without requiring external prompts or verifiers. Building upon A-Trust, we develop a principled and efficient trust management system (TMS) for LLM-MAS, enabling both message-level and agent-level trust assessment. Experiments across diverse multi-agent settings and tasks demonstrate that applying our TMS significantly enhances robustness against malicious inputs.
- Abstract(参考訳): LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
既存の研究では信頼度にアプローチするものもあるが、複数の信頼度の観点から総合的なアプローチで分析するのではなく、単一タイプの有害性に焦点を当てている。
本研究では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
人間のコミュニケーション文献に触発されて,6つの直交信頼次元にわたる注意行動の体系的分析により,LLMの特定の注意頭脳が,特定の種類の違反を検出することに特化していることが判明した。
これらの洞察を活用することで、A-Trustは外部のプロンプトや検証を必要とせずに、内部の注意パターンから直接信頼性を推測する。
A-Trust を基盤として,メッセージレベルとエージェントレベルの信頼評価が可能な LLM-MAS のための原則的かつ効率的な信頼管理システム (TMS) を開発した。
多様なマルチエージェント設定やタスクにわたる実験により、TMSの適用は悪意のある入力に対する堅牢性を著しく向上させることが示された。
関連論文リスト
- TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。