Fugu-MT 論文翻訳(概要): A Large-Scale Study on the Development and Issues of Multi-Agent AI Systems

論文の概要: A Large-Scale Study on the Development and Issues of Multi-Agent AI Systems

arxiv url: http://arxiv.org/abs/2601.07136v1
Date: Mon, 12 Jan 2026 02:07:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-13 19:08:01.17973
Title: A Large-Scale Study on the Development and Issues of Multi-Agent AI Systems
Title（参考訳）: マルチエージェントAIシステムの開発と課題に関する大規模研究
Authors: Daniel Liu, Krishna Upadhyay, Vinaik Chhetri, A. B. Siddique, Umar Farooq,
Abstract要約: 本稿では8つの主要なシステムにまたがる42K以上のユニークなコミットと4.7K以上の解決問題を分析する。私たちの分析では、持続性、安定性、バースト駆動の3つの異なる開発プロファイルを特定しました。問題に関するデータによると、最も頻繁な懸念はバグ(22%)、インフラストラクチャ(14%)、エージェント調整の問題(10%)である。
参考スコア（独自算出の注目度）: 2.1215369927766714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid emergence of multi-agent AI systems (MAS), including LangChain, CrewAI, and AutoGen, has shaped how large language model (LLM) applications are developed and orchestrated. However, little is known about how these systems evolve and are maintained in practice. This paper presents the first large-scale empirical study of open-source MAS, analyzing over 42K unique commits and over 4.7K resolved issues across eight leading systems. Our analysis identifies three distinct development profiles: sustained, steady, and burst-driven. These profiles reflect substantial variation in ecosystem maturity. Perfective commits constitute 40.8% of all changes, suggesting that feature enhancement is prioritized over corrective maintenance (27.4%) and adaptive updates (24.3%). Data about issues shows that the most frequent concerns involve bugs (22%), infrastructure (14%), and agent coordination challenges (10%). Issue reporting also increased sharply across all frameworks starting in 2023. Median resolution times range from under one day to about two weeks, with distributions skewed toward fast responses but a minority of issues requiring extended attention. These results highlight both the momentum and the fragility of the current ecosystem, emphasizing the need for improved testing infrastructure, documentation quality, and maintenance practices to ensure long-term reliability and sustainability.
Abstract（参考訳）: LangChain、CrewAI、AutoGenを含むマルチエージェントAIシステム(MAS)の急速な台頭は、大規模言語モデル(LLM)アプリケーションがどのように開発され、編成されるかを形作っている。しかし、これらのシステムがどのように進化し、実際に維持されているかについてはほとんど分かっていない。本稿では,オープンソースのMASに関する大規模な実証的研究を行い,42K以上のユニークなコミットと4.7K以上の解決問題を分析した。私たちの分析では、持続性、安定性、バースト駆動の3つの異なる開発プロファイルを特定しました。これらのプロファイルは生態系の成熟度にかなりの変化を反映している。完全なコミットはすべての変更の40.8%を占めており、機能の強化が修正保守(27.4%)と適応更新(24.3%)よりも優先されていることを示唆している。問題に関するデータによると、最も頻繁な懸念はバグ(22%)、インフラストラクチャ(14%)、エージェント調整の問題(10%)である。問題報告は2023年からすべてのフレームワークで大幅に増加した。メディアの解決期間は1日弱から2週間程度で、分布は急激な対応に傾いているが、一部の問題では注意を向ける必要がある。これらの結果は、現在のエコシステムの勢いと脆弱さの両方を強調し、長期的な信頼性と持続可能性を保証するために、テストインフラストラクチャの改善、ドキュメント品質、メンテナンスプラクティスの必要性を強調している。

関連論文リスト

Data Annotation Quality Problems in AI-Enabled Perception System Development [3.716862357836751]
データアノテーションは、AI対応の知覚システムの開発において必須であるが、非常にエラーを起こしやすい。我々は3つのデータ品質次元にまたがる18の繰り返しアノテーションエラーの分類法を開発した。この研究は、信頼できるAI対応認識システムを構築するための共有語彙、診断ツールセット、行動可能なガイダンスを提供することで、SE4AIに貢献する。
論文参考訳（メタデータ） (2025-11-20T14:30:51Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。 Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文参考訳（メタデータ） (2025-07-08T17:59:22Z)
Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。 RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文参考訳（メタデータ） (2025-04-17T16:46:11Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
A Comprehensive Study of Bug-Fix Patterns in Autonomous Driving Systems [16.72158049599736]
自律運転システム(ADSe)におけるバグフィックスパターンの実証的研究について述べる。我々は、ApolloとAutowareという2つの主要な自動運転プロジェクトのコミット履歴とバグレポートを、1,331のバグ修正から分析した。本研究は,経路計画やデータフロー,構成管理など,いくつかの主要なバグフィックスパターンを明らかにする。
論文参考訳（メタデータ） (2025-02-04T02:13:05Z)
Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。 Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文参考訳（メタデータ） (2024-11-01T14:27:16Z)
Generative AI for Requirements Engineering: A Systematic Literature Review [1.6986294649170766]
生成事前学習型トランスモデルが現在の応用を支配している。産業採用は未熟であり、90%以上の研究が初期開発に対応している。 GenAIベースのREの変革的な可能性にもかかわらず、いくつかの障壁は実践的な採用を妨げる。
論文参考訳（メタデータ） (2024-09-10T02:44:39Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
Cumulative Reasoning (CR)は、大規模言語モデル(LLM)問題解決を強化する構造化フレームワークである。 CRはLLMを3つの異なる役割 - Proposer、Verifier(s)、Reporter - タスクを体系的に分解し、中間的推論ステップを生成し、検証し、ソリューションに構成する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。