論文の概要: The Six Sigma Agent: Achieving Enterprise-Grade Reliability in LLM Systems Through Consensus-Driven Decomposed Execution
- arxiv url: http://arxiv.org/abs/2601.22290v1
- Date: Thu, 29 Jan 2026 20:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.043798
- Title: The Six Sigma Agent: Achieving Enterprise-Grade Reliability in LLM Systems Through Consensus-Driven Decomposed Execution
- Title(参考訳): 6つのシグマエージェント:合意駆動型分解実行によるLLMシステムのエンタープライズグレード信頼性の実現
- Authors: Khush Patel, Siva Surendira, Jithin George, Shreyas Kapale,
- Abstract要約: シックスシグマエージェント(Six Sigma Agent)は、3つの相乗的コンポーネントを通してエンタープライズグレードの信頼性を実現する新しいアーキテクチャである。
単エージェント実行よりも信頼性が14,700倍向上し,コストが80%削減された。
私たちの研究は、AIシステムの信頼性が、モデルスケーリング単独ではなく、原則的な冗長性とコンセンサスから生まれることを実証しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models demonstrate remarkable capabilities yet remain fundamentally probabilistic, presenting critical reliability challenges for enterprise deployment. We introduce the Six Sigma Agent, a novel architecture that achieves enterprise-grade reliability through three synergistic components: (1) task decomposition into a dependency tree of atomic actions; (2) micro-agent sampling where each task is executed n times in parallel across diverse LLMs to generate independent outputs; and (3) consensus voting with dynamic scaling, clustering outputs and selecting the answer from the winning cluster with maximum votes. We prove that sampling n independent outputs with error rate p achieves system error O(p^{ceil(n/2)}), enabling exponential reliability gains. Even using cheaper models with 5% per-action error, consensus voting with 5 agents reduces error to 0.11%; dynamic scaling to 13 agents achieves 3.4 DPMO (Defects Per Million Opportunities), the Six Sigma standard. Evaluation across three enterprise use cases demonstrates a 14,700x reliability improvement over single-agent execution while reducing costs by 80%. Our work establishes that reliability in AI systems emerges from principled redundancy and consensus rather than model scaling alone.
- Abstract(参考訳): 大規模言語モデルは目覚ましい能力を示すが、基本的に確率的であり、エンタープライズデプロイメントにおいて重要な信頼性上の課題を提示している。
本研究では,(1) アトミックアクションの依存性ツリーへのタスク分解,(2) 各タスクがn回並列に実行され,独立した出力を生成するマイクロエージェントサンプリング,(3) 動的スケーリングによるコンセンサス投票,クラスタリングアウトプット,および勝利クラスタからの回答選択という,3つの相乗的コンポーネントによるエンタープライズグレードの信頼性を実現する新アーキテクチャについて紹介する。
誤差率pでn個の独立出力をサンプリングすると、システムエラーO(p^{ceil(n/2)})が得られ、指数的信頼性が向上することを示す。
5エージェントによるコンセンサス投票はエラーを0.11%に削減し、13エージェントへの動的スケーリングはSix Sigma標準である3.4 DPMO(Defects Per Million Opportunities)を達成する。
3つのエンタープライズユースケースに対する評価では、単一エージェントの実行よりも信頼性が14,700倍向上し、コストが80%削減された。
私たちの研究は、AIシステムの信頼性が、モデルスケーリング単独ではなく、原則的な冗長性とコンセンサスから生まれることを実証しています。
関連論文リスト
- Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - SafeSieve: From Heuristics to Experience in Progressive Pruning for LLM-based Multi-Agent Communication [19.633176635669397]
プログレッシブで適応的なマルチエージェント・プルーニングアルゴリズムであるSafeSieveを提案する。
SafeSieveの平均精度は94.01%であり、トークン使用率を12.4%から27.8%削減している。
これらの結果はSafeSieveを実用マルチエージェントシステムのための堅牢で効率的でスケーラブルなフレームワークとして確立している。
論文 参考訳(メタデータ) (2025-08-15T13:44:50Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。