論文の概要: Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2506.02546v1
- Date: Tue, 03 Jun 2025 07:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.787996
- Title: Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems
- Title(参考訳): 信頼する人を知る: LLMマルチエージェントシステムのための注意に基づく信頼管理
- Authors: Pengfei He, Zhenwei Dai, Xianfeng Tang, Yue Xing, Hui Liu, Jingying Zeng, Qiankun Peng, Shrivats Agrawal, Samarth Varshney, Suhang Wang, Jiliang Tang, Qi He,
- Abstract要約: LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
- 参考スコア(独自算出の注目度): 52.57826440085856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model-based Multi-Agent Systems (LLM-MAS) have demonstrated strong capabilities in solving complex tasks but remain vulnerable when agents receive unreliable messages. This vulnerability stems from a fundamental gap: LLM agents treat all incoming messages equally without evaluating their trustworthiness. While some existing studies approach the trustworthiness, they focus on a single type of harmfulness rather than analyze it in a holistic approach from multiple trustworthiness perspectives. In this work, we propose Attention Trust Score (A-Trust), a lightweight, attention-based method for evaluating message trustworthiness. Inspired by human communication literature[1], through systematically analyzing attention behaviors across six orthogonal trust dimensions, we find that certain attention heads in the LLM specialize in detecting specific types of violations. Leveraging these insights, A-Trust directly infers trustworthiness from internal attention patterns without requiring external prompts or verifiers. Building upon A-Trust, we develop a principled and efficient trust management system (TMS) for LLM-MAS, enabling both message-level and agent-level trust assessment. Experiments across diverse multi-agent settings and tasks demonstrate that applying our TMS significantly enhances robustness against malicious inputs.
- Abstract(参考訳): LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
既存の研究では信頼度にアプローチするものもあるが、複数の信頼度の観点から総合的なアプローチで分析するのではなく、単一タイプの有害性に焦点を当てている。
本研究では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
人間のコミュニケーション文献に触発されて,6つの直交信頼次元にわたる注意行動の体系的分析により,LLMの特定の注意頭脳が,特定の種類の違反を検出することに特化していることが判明した。
これらの洞察を活用することで、A-Trustは外部のプロンプトや検証を必要とせずに、内部の注意パターンから直接信頼性を推測する。
A-Trust を基盤として,メッセージレベルとエージェントレベルの信頼評価が可能な LLM-MAS のための原則的かつ効率的な信頼管理システム (TMS) を開発した。
多様なマルチエージェント設定やタスクにわたる実験により、TMSの適用は悪意のある入力に対する堅牢性を著しく向上させることが示された。
関連論文リスト
- Ties of Trust: a bowtie model to uncover trustor-trustee relationships in LLMs [1.1149261035759372]
大規模言語モデル(LLM)における信頼の概念化と定式化のためのボウイモデルを提案する。
コアコンポーネントは、信頼者と信頼者、そしてそれらの複雑な関係を結び付けることによって、信頼を包括的に探求する。
我々はこれらの関係を、提案されたボウティーモデルと、その社会技術エコシステムの範囲内で明らかにする。
論文 参考訳(メタデータ) (2025-06-11T11:42:52Z) - Mapping the Trust Terrain: LLMs in Software Engineering -- Insights and Perspectives [25.27634711529676]
大規模言語モデル(LLM)の応用は、様々なソフトウェア工学(SE)タスクのための業界や学術分野で急速に成長しています。
これらのモデルがクリティカルなプロセスにとってより不可欠なものになると、信頼性と信頼性が不可欠になります。
SE における LLM の信頼関連概念の展望は比較的不明瞭であり、信頼、不信、信頼といった概念は明確な概念化を欠いている。
論文 参考訳(メタデータ) (2025-03-18T00:49:43Z) - AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving [106.0319745724181]
自動運転における大規模ビジョン言語モデル(DriveVLM)のための総合的信頼度ベンチマークであるAutoTrustを紹介する。
シナリオを駆動する際の信頼性問題を調べるために,最も大きな視覚的質問応答データセットを構築した。
私たちの評価では、DriveVLMの脆弱性を信頼性の脅威に対して明らかにしました。
論文 参考訳(メタデータ) (2024-12-19T18:59:33Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Bayesian Methods for Trust in Collaborative Multi-Agent Autonomy [11.246557832016238]
安全クリティカルで競争の激しい環境では、敵は多数のエージェントに侵入し、妥協することがある。
我々は、この妥協されたエージェント脅威モデルの下で、アートマルチターゲット追跡アルゴリズムの状態を解析する。
階層的ベイズ更新を用いた信頼度推定フレームワークを設計する。
論文 参考訳(メタデータ) (2024-03-25T17:17:35Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。