論文の概要: CAM: A Causality-based Analysis Framework for Multi-Agent Code Generation Systems
- arxiv url: http://arxiv.org/abs/2602.02138v1
- Date: Mon, 02 Feb 2026 14:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.198111
- Title: CAM: A Causality-based Analysis Framework for Multi-Agent Code Generation Systems
- Title(参考訳): CAM:マルチエージェントコード生成システムのための因果解析フレームワーク
- Authors: Lyu Zongyi, Ji Zhenlan, Chen Songqiang, Wang Liwen, Huang Yuheng, Wang Shuai, Cheung Shing-Chi,
- Abstract要約: 我々は,textbfMACGS のための最初の textbfCausality ベースの textbfAnalysis フレームワーク CAM を提案する。
システム正しさの重要な特徴を特定し,その重要度を集計する。
我々の研究はMACGSの設計と展開に関する実用的な洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success that Multi-Agent Code Generation Systems (MACGS) have achieved, the inherent complexity of multi-agent architectures produces substantial volumes of intermediate outputs. To date, the individual importance of these intermediate outputs to the system correctness remains opaque, which impedes targeted optimization of MACGS designs. To address this challenge, we propose CAM, the first \textbf{C}ausality-based \textbf{A}nalysis framework for \textbf{M}ACGS that systematically quantifies the contribution of different intermediate features for system correctness. By comprehensively categorizing intermediate outputs and systematically simulating realistic errors on intermediate features, we identify the important features for system correctness and aggregate their importance rankings. We conduct extensive empirical analysis on the identified importance rankings. Our analysis reveals intriguing findings: first, we uncover context-dependent features\textemdash features whose importance emerges mainly through interactions with other features, revealing that quality assurance for MACGS should incorporate cross-feature consistency checks; second, we reveal that hybrid backend MACGS with different backend LLMs assigned according to their relative strength achieves up to 7.2\% Pass@1 improvement, underscoring hybrid architectures as a promising direction for future MACGS design. We further demonstrate CAM's practical utility through two applications: (1) failure repair which achieves a 73.3\% success rate by optimizing top-3 importance-ranked features and (2) feature pruning that reduces up to 66.8\% intermediate token consumption while maintaining generation performance. Our work provides actionable insights for MACGS design and deployment, establishing causality analysis as a powerful approach for understanding and improving MACGS.
- Abstract(参考訳): MACGS(Multi-Agent Code Generation Systems)が成功しているにもかかわらず、マルチエージェントアーキテクチャの本質的な複雑さは相当量の中間出力を生み出している。
現在まで、システム正当性に対するこれらの中間出力の個々の重要性は不透明であり、MACGS設計の目標最適化を妨げている。
この課題に対処するために,システム正当性に対する異なる中間的特徴の寄与を体系的に定量化する,最初のtextbf{C}ausality-based \textbf{A}nalysis frameworkであるCAMを提案する。
中間出力を包括的に分類し、中間特徴の現実的誤りを体系的にシミュレートすることにより、システム正しさの重要な特徴を特定し、それらの重要ランキングを集計する。
我々は、特定された重要度ランキングに関する広範な実証分析を行う。
まず、MACGSの品質保証は、機能横断的な整合性チェックを取り入れるべきであることを明らかにし、次に、異なるバックエンド LLM を割り当てたハイブリッドバックエンド MACGS が、7.2 % Pass@1 の改善を達成し、将来の MACGS 設計の有望な方向性としてハイブリッドアーキテクチャを補足することを明らかにする。
さらに,(1)重要度の高い特徴を最適化して73.3倍の成功率を達成する故障修復と,(2)中間トークン消費を66.8倍まで低減し,生成性能を維持しながら,CAMの実用性を実証する。
我々の研究はMACGSの設計と展開に関する実用的な洞察を提供し、MACGSの理解と改善のための強力なアプローチとして因果分析を確立する。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction [21.20778568616635]
本稿では,Dual-Resolution Attentive Statistics Pooling (DRASP) フレームワークを紹介する。
DRASPは、粗大でグローバルな統計要約と、知覚的に重要なセグメントの細粒で注意深い分析の両方を統合している。
さまざまなデータセットにまたがって、さまざまなベースラインメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-29T08:27:17Z) - GEMMAS: Graph-based Evaluation Metrics for Multi Agent Systems [1.7825757481227436]
本稿では,エージェント間相互作用を有向非巡回グラフとしてモデル化することにより,内部協調プロセスを解析する,グラフに基づく評価フレームワークGEMMASを紹介する。
コラボレーションの質を捉えるために、エージェント間メッセージの意味的変動を測定するIDSと、冗長な推論経路を定量化する不必要パス比の2つのプロセスレベルメトリクスを提案する。
GEMMASを5つのベンチマークで評価し、GSM8K上では精度の差がわずか2.1%しかなく、IDSでは12.8%、UPRでは80%の違いがあり、内部コラボレーションのかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2025-07-17T14:59:20Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning [11.670797168818773]
主要な研究課題は、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
AutoWeka4MCPSパッケージによる多くの実験は、オポチュニティ/システムメタ知識がMLの結果を改善することを示唆している。
我々は、データセットの「チャレンジ」に対する強い感度、すなわち、予測子の選択における特異性によってパフォーマンスが著しく向上するかどうかを観察する。
論文 参考訳(メタデータ) (2022-08-08T19:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。