論文の概要: LLM Consortium for Software Design Refinement: A Controlled Experiment on Multi-Agent Collaboration Topologies
- arxiv url: http://arxiv.org/abs/2606.01490v1
- Date: Sun, 31 May 2026 23:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.73357
- Title: LLM Consortium for Software Design Refinement: A Controlled Experiment on Multi-Agent Collaboration Topologies
- Title(参考訳): LLM Consortium for Software Design Refinement: マルチエージェントコラボレーショントポロジに関する制御実験
- Authors: Nagarjuna Kanamarlapudi, Praveen K,
- Abstract要約: ソフトウェアアーキテクチャ設計のための12のマルチエージェントLLM協調トポロジを評価する。
設計は3つの独立自動評価器により12次元ルーリック上で評価された。
- 参考スコア(独自算出の注目度): 0.9692280299777165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a controlled experiment evaluating 12 multi-agent LLM collaboration topologies for software architecture design. Using a $2\times2\times2$ factorial design (Authority $\times$ Roles $\times$ Dynamics), we conducted 520 experimental runs across 8 design tasks of varying complexity, with 5 repetitions each. Designs were evaluated on a 12-dimensional rubric by three independent automated evaluators (GPT-OSS 120B, Claude Opus 4.6, Claude Sonnet 4.6). We report four core findings. First, structural adversarial (v4b) ranks #1 by ensemble -- a prompt-engineered adversarial variant that demands rewrite mandates rather than patches (weighted ensemble: 4.637/5.0). Second, cross-model review wins unanimously at #2 -- generate with one model, review with another -- ranking #2 by all three evaluators (weighted ensemble: 4.606). Third, evaluator diversity is itself a finding -- all three evaluators agree v4b is best and v3 is worst, but disagree sharply on v2b (Claude d=1.44 vs. GPT-OSS d=0.45), revealing how different model families weight design qualities. Fourth, parallel merge is fundamentally broken -- all three evaluators place merge variants in the bottom tier (3.65-3.79), due to token starvation and the Frankenstein effect. The weighted ensemble ($2\times$Opus + $2\times$Sonnet + $1\times$GPT-OSS) provides robust rankings across 520 runs, confirmed through independent cross-validation.
- Abstract(参考訳): ソフトウェアアーキテクチャ設計のための12のマルチエージェントLLM協調トポロジを評価する。
2$\times2\times2$ Factorialデザイン(Authority $\times$ Roles $\times$ Dynamics)を使用して、さまざまな複雑さを持つ8つのデザインタスクに対して、520の試験的な実行を実行しました。
設計は3つの独立自動評価器(GPT-OSS 120B、Claude Opus 4.6、Claude Sonnet 4.6)によって12次元のルーリック上で評価された。
コアは4つある。
第一に、構造的逆数 (v4b) はアンサンブルで#1をランク付けする -- パッチではなく書き直しを要求されるプロンプトエンジニアリングされた逆数である(重み付きアンサンブル: 4.637/5.0)。
第2に、クロスモデルレビューは全会一致で1つのモデルを生成し、別のモデルでレビューし、3つの評価者(重み付けアンサンブル:4.606)で2位にランクインする。
第3に、評価対象の多様性自体が発見であり、3つの評価対象が v4b が最適であり、v3 が最悪のことに同意しているが、v2b (Claude d=1.44 vs. GPT-OSS d=0.45) に強く反対し、モデルファミリーの重み付けがいかに異なるかを明らかにしている。
3つの評価器は、トークンの飢餓とフランケンシュタイン効果のために、下層(3.65-3.79)にマージ変種を配置する。
重み付きアンサンブル(2\times$Opus + $2\times$Sonnet + $1\times$GPT-OSS)は、独立したクロスバリデーションを通じて確認された520ランにわたる堅牢なランキングを提供する。
関連論文リスト
- Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP [3.774094352572544]
プログラム状態抽象化は、使用されるトークン当たりの最大のリターンを提供する。
階層をまたいだ議論ツールの配布は、階層のみに対するパフォーマンスを低下させる。
議論のない階層分解は、ほとんどのモデルにとって最高の絶対的な性能を達成する。
論文 参考訳(メタデータ) (2026-05-15T17:23:08Z) - Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines [0.0]
マルチエージェントLLMパイプラインは、チームの多様性がアウトプット品質を改善するかどうかという矛盾した証拠を生み出します。
多様性が役に立つか傷つくかを判断する選択ボトルネックを特定することで解決法を提案する。
この結果から, セレクタの品質は, 単ラウンドジェネレータ選択パイプラインにおけるジェネレータの多様性よりも, より影響の高い設計レバーである可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-20T00:50:53Z) - Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation [4.527396444851612]
従来のラター間合意法では、複数のヒューマンコーダが必要であり、時間集約的であり、しばしば適度な一貫性をもたらす。
アンサンブル検証と2つの信頼性指標を組み合わせたLLMに基づくテーマ解析のための多視点検証フレームワークを提案する。
Geminiは6つのコンセンサステーマ(50~83%の一貫性)、GPT-4oは5つのテーマ、Claude 4は4つのテーマを識別する。
論文 参考訳(メタデータ) (2025-12-23T13:32:43Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Full Matching on Low Resolution for Disparity Estimation [84.45201205560431]
本研究では,マルチステージ完全一致格差推定法(MFM)を提案する。
また,低分解能3次元コストを見積もる代わりに,低分解能4次元ボリュームから全類似度スコアを段階的に切り離すことを実証した。
実験の結果,提案手法は,シーンフローやkitti 2012,kitti 2015のデータセットにおいて,より正確な不一致推定結果を達成し,最先端の手法を上回った。
論文 参考訳(メタデータ) (2020-12-10T11:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。