論文の概要: Rethinking the Reliability of Multi-agent System: A Perspective from Byzantine Fault Tolerance
- arxiv url: http://arxiv.org/abs/2511.10400v1
- Date: Fri, 14 Nov 2025 01:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.84925
- Title: Rethinking the Reliability of Multi-agent System: A Perspective from Byzantine Fault Tolerance
- Title(参考訳): マルチエージェントシステムの信頼性再考:ビザンチン耐故障性の観点から
- Authors: Lifan Zheng, Jiawei Chen, Qinghong Yin, Jingyuan Zhang, Xinyi Zeng, Yu Tian,
- Abstract要約: 大規模言語モデル (LLM) はマルチエージェントシステム (MAS) のメインブランチとして LLM ベースのエージェントを確立している。
本研究では, ビザンチン系耐故障性の観点から, LLM系エージェントの信頼性を検証し, 定量化する。
我々は、信頼度プローブに基づく重み付きビザンチン耐故障コンセンサス機構であるCP-WBFTを設計し、異なる位相でMASの安定性を向上させる。
- 参考スコア(独自算出の注目度): 16.514747521376915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the reliability of agent architectures and effectively identifying problematic agents when failures occur are crucial challenges in multi-agent systems (MAS). Advances in large language models (LLMs) have established LLM-based agents as a major branch of MAS, enabling major breakthroughs in complex problem solving and world modeling. However, the reliability implications of this shift remain largely unexplored. i.e., whether substituting traditional agents with LLM-based agents can effectively enhance the reliability of MAS. In this work, we investigate and quantify the reliability of LLM-based agents from the perspective of Byzantine fault tolerance. We observe that LLM-based agents demonstrate stronger skepticism when processing erroneous message flows, a characteristic that enables them to outperform traditional agents across different topological structures. Motivated by the results of the pilot experiment, we design CP-WBFT, a confidence probe-based weighted Byzantine Fault Tolerant consensus mechanism to enhance the stability of MAS with different topologies. It capitalizes on the intrinsic reflective and discriminative capabilities of LLMs by employing a probe-based, weighted information flow transmission method to improve the reliability of LLM-based agents. Extensive experiments demonstrate that CP-WBFT achieves superior performance across diverse network topologies under extreme Byzantine conditions (85.7\% fault rate). Notably, our approach surpasses traditional methods by attaining remarkable accuracy on various topologies and maintaining strong reliability in both mathematical reasoning and safety assessment tasks.
- Abstract(参考訳): エージェントアーキテクチャの信頼性を確保し、障害発生時の問題のあるエージェントを効果的に識別することは、マルチエージェントシステム(MAS)において重要な課題である。
大規模言語モデル(LLM)の進歩は、LLMベースのエージェントをMASのメインブランチとして確立し、複雑な問題解決と世界モデリングの大きなブレークスルーを可能にした。
しかし、この変化の信頼性はいまだに未解明のままである。
つまり、従来のエージェントにLLMベースのエージェントを置換することは、MASの信頼性を効果的に向上させることができるかどうかである。
本研究では, ビザンチン系耐故障性の観点から, LLM系エージェントの信頼性を検証し, 定量化する。
我々は,LLMをベースとしたエージェントが,異なるトポロジカル構造にまたがる従来のエージェントよりも優れた特性である誤ったメッセージフローを処理する際に,より強い懐疑性を示すことを観察した。
実験結果から得られたCP-WBFT, 信頼性プローブを用いた重み付きビザンチン耐故障コンセンサス機構を設計し, 位相差の異なるMASの安定性を向上する。
プローブベースの重み付き情報流伝送方式を用いることで, LLMの固有反射特性と識別能力を活かし, LLMエージェントの信頼性を向上させる。
CP-WBFTは、極端なビザンチン条件下での様々なネットワークトポロジ(85.7\%の故障率)において、優れた性能を達成している。
特に,提案手法は,様々なトポロジにおいて顕著な精度を達成し,数学的推論と安全性評価の両タスクにおいて高い信頼性を維持することにより,従来の手法を超越している。
関連論文リスト
- Testing and Enhancing Multi-Agent Systems for Robust Code Generation [21.38351747327572]
自動コード生成のための有望なパラダイムとしてマルチエージェントシステム(MAS)が登場した。
繁栄と採用にもかかわらず、その頑丈さはいまだに過小評価されている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-10-12T05:45:04Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - LLM-based Agents for Automated Confounder Discovery and Subgroup Analysis in Causal Inference [1.1538255621565348]
本稿では,共同創設者の自動発見とサブグループ分析のための大規模言語モデルに基づくエージェントを提案する。
本フレームワークは,サブグループ識別と構造発見を体系的に行う。
以上の結果から,LSMをベースとしたエージェントは,スケーラブルで信頼性が高く,セマンティックに認識された因果推論へ有望な道をたどることが示唆された。
論文 参考訳(メタデータ) (2025-08-10T07:45:49Z) - Enhancing Robustness of LLM-Driven Multi-Agent Systems through Randomized Smoothing [13.997409139696556]
本稿では,大型言語モデル(LLM)の安全性向上のための枠組みとして,航空宇宙などの安全クリティカル領域におけるマルチエージェントシステム(MAS)について述べる。
統計的ロバスト性証明手法であるランダム化スムーシングをMASコンセンサス・コンテキストに適用し、敵の影響下でのエージェント決定に対する確率的保証を可能にする。
論文 参考訳(メタデータ) (2025-07-05T17:26:08Z) - Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems [52.57826440085856]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:32:57Z) - A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network [53.37983409425452]
大規模言語モデル(LLM)は幅広いアプリケーションで大きな成功を収めています。
近年,MultiLLMネットワーク(MultiLLMN)などの協調フレームワークが導入されている。
重み付きビザンチンフォールトトレランス(WBFT)ブロックチェーンコンセンサス機構によって駆動される新しいTrusted MultiLLMNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-08T10:04:41Z) - A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Can You Trust LLM Judgments? Reliability of LLM-as-a-Judge [0.3759936323189418]
大規模言語モデル(LLM)はますます強力でユビキタスなものになってきていますが、その性質はアウトプットの信頼性に課題をもたらします。
マクドナルドのオメガを利用したLCM判定の信頼性を厳格に評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-17T03:37:31Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。