論文の概要: Where Did It All Go Wrong? A Hierarchical Look into Multi-Agent Error Attribution
- arxiv url: http://arxiv.org/abs/2510.04886v1
- Date: Mon, 06 Oct 2025 15:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.926317
- Title: Where Did It All Go Wrong? A Hierarchical Look into Multi-Agent Error Attribution
- Title(参考訳): どこで間違いを犯したのか? マルチエージェントのエラー属性を階層的に調べる
- Authors: Adi Banerjee, Anirudh Nair, Tarik Borogovac,
- Abstract要約: 本稿では,階層的文脈表現,客観分析に基づく評価,コンセンサス投票を組み合わせた新しいアルゴリズムECHOを提案する。
実験の結果,ECHOは様々なマルチエージェントインタラクションシナリオにおいて既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.7226144684379191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Error attribution in Large Language Model (LLM) multi-agent systems presents a significant challenge in debugging and improving collaborative AI systems. Current approaches to pinpointing agent and step level failures in interaction traces - whether using all-at-once evaluation, step-by-step analysis, or binary search - fall short when analyzing complex patterns, struggling with both accuracy and consistency. We present ECHO (Error attribution through Contextual Hierarchy and Objective consensus analysis), a novel algorithm that combines hierarchical context representation, objective analysis-based evaluation, and consensus voting to improve error attribution accuracy. Our approach leverages a positional-based leveling of contextual understanding while maintaining objective evaluation criteria, ultimately reaching conclusions through a consensus mechanism. Experimental results demonstrate that ECHO outperforms existing methods across various multi-agent interaction scenarios, showing particular strength in cases involving subtle reasoning errors and complex interdependencies. Our findings suggest that leveraging these concepts of structured, hierarchical context representation combined with consensus-based objective decision-making, provides a more robust framework for error attribution in multi-agent systems.
- Abstract(参考訳): LLM(Large Language Model)マルチエージェントシステムのエラー属性は、協調AIシステムのデバッグと改善において大きな課題となる。
インタラクショントレースにおけるピンポインティングエージェントとステップレベルの障害 – オール・アット・オンス評価、ステップ・バイ・ステップ分析、バイナリ検索 – に対する現在のアプローチは、正確性と一貫性の両方に苦しむ複雑なパターンを分析する場合には不十分である。
本稿では, 階層的文脈表現, 客観分析に基づく評価, コンセンサス投票を組み合わせた新しいアルゴリズムであるECHO(Error Attribution through Contextual Hierarchy and Objective consensus analysis)を提案する。
提案手法は,客観的評価基準を維持しつつ,位置に基づく文脈理解のレベル付けを活用し,最終的にコンセンサス機構を通じて結論に達する。
実験により、ECHOは様々なマルチエージェント相互作用シナリオにおいて既存の手法よりも優れており、微妙な推論誤差や複雑な相互依存を伴う場合において、特に強みを示す。
これらの構造的・階層的文脈表現とコンセンサスに基づく客観的意思決定とを組み合わせることで、マルチエージェントシステムにおけるエラー帰属のためのより堅牢なフレームワークが提供されることが示唆された。
関連論文リスト
- Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Evaluation and Incident Prevention in an Enterprise AI Assistant [20.635362734048723]
本稿では、複数のチームによるアクティブな開発において、複雑なマルチコンポーネントシステムの監視、ベンチマーク、継続的な改善のための包括的なフレームワークを提案する。
この全体的フレームワークを採用することで、組織はAIアシスタントの信頼性とパフォーマンスを体系的に強化することができる。
論文 参考訳(メタデータ) (2025-04-11T20:10:04Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Towards Rationality in Language and Multimodal Agents: A Survey [23.451887560567602]
この研究は、より合理的な言語とマルチモーダルエージェントを構築する方法について議論する。
合理性は理性によって導かれる性質であり、証拠や論理原理と整合した意思決定によって特徴づけられる。
論文 参考訳(メタデータ) (2024-06-01T01:17:25Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Neural Transition System for End-to-End Opinion Role Labeling [13.444895891262844]
統一世論役割ラベルリング(ORL)は、意見保有者目標の可能なすべての意見構造を1ショットで検出することを目的としている。
我々は、遷移アーキテクチャを再考し、ポインタネットワーク(PointNet)で拡張することで、新しいソリューションを提案する。
このフレームワークは、線形時間複雑性におけるすべての意見構造を解析し、PointNetとの任意の項長の制限を突破する。
論文 参考訳(メタデータ) (2021-10-05T12:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。