論文の概要: Wisdom and Delusion of LLM Ensembles for Code Generation and Repair
- arxiv url: http://arxiv.org/abs/2510.21513v1
- Date: Fri, 24 Oct 2025 14:39:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 15:45:42.336972
- Title: Wisdom and Delusion of LLM Ensembles for Code Generation and Repair
- Title(参考訳): コード生成と修復のためのLCMアンサンブルの知恵と妄想
- Authors: Fernando Vallecillos Ruiz, Max Hort, Leon Moonen,
- Abstract要約: 3つのソフトウェアエンジニアリングベンチマークで10個の大規模言語モデルと3つのLLMのアンサンブルを比較した。
アンサンブルのパフォーマンスの理論的上限は、最高のシングルモデルよりも83%高いことが判明した。
多様性に基づく戦略は、この理論ポテンシャルの最大95%を実現し、小さな2モデルアンサンブルでも有効であることを示す。
- 参考スコア(独自算出の注目度): 45.969630994412846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's pursuit of a single Large Language Model (LMM) for all software engineering tasks is resource-intensive and overlooks the potential benefits of complementarity, where different models contribute unique strengths. However, the degree to which coding LLMs complement each other and the best strategy for maximizing an ensemble's potential are unclear, leaving practitioners without a clear path to move beyond single-model systems. To address this gap, we empirically compare ten individual LLMs from five families, and three ensembles of these LLMs across three software engineering benchmarks covering code generation and program repair. We assess the complementarity between models and the performance gap between the best individual model and the ensembles. Next, we evaluate various selection heuristics to identify correct solutions from an ensemble's candidate pool. We find that the theoretical upperbound for an ensemble's performance can be 83% above the best single model. Our results show that consensus-based strategies for selecting solutions fall into a "popularity trap," amplifying common but incorrect outputs. In contrast, a diversity-based strategy realizes up to 95% of this theoretical potential, and proves effective even in small two-model ensembles, enabling a cost-efficient way to enhance performance by leveraging multiple LLMs.
- Abstract(参考訳): 今日のソフトウェアエンジニアリングタスクの1つのLMM(Large Language Model)の追求はリソース集約的であり、異なるモデルが独自の強みをもたらす相補性の潜在的なメリットを見落としている。
しかし、コーディングLLMが相互に補完する程度や、アンサンブルのポテンシャルを最大化するための最善の戦略は不明確であり、実践者が単一モデルシステムを超えて進むための明確な道のりは残っていない。
このギャップに対処するために、私たちは、コード生成とプログラム修復をカバーする3つのソフトウェアエンジニアリングベンチマークにおいて、5つのファミリーから10個のLLMと3つのLLMのアンサンブルを経験的に比較した。
モデル間の相補性と、最高の個人モデルとアンサンブル間の性能ギャップを評価する。
次に、アンサンブルの候補プールから正しい解を同定するために、様々な選択ヒューリスティックスを評価する。
アンサンブルのパフォーマンスの理論的上限は、最高のシングルモデルよりも83%高いことが判明した。
この結果から, コンセンサスに基づくソリューション選択戦略は, 共通かつ誤ったアウトプットを増幅する「人気トラップ」に陥ることが示唆された。
対照的に、多様性に基づく戦略は、この理論的ポテンシャルの最大95%を実現し、小さな2モデルアンサンブルでも有効であることを証明し、複数のLLMを活用することで、コスト効率の高い性能向上を可能にする。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Dynamic Optimizations of LLM Ensembles with Two-Stage Reinforcement Learning Agents [31.341487297459995]
本稿では,LLMをルートおよびアンサンブルする2段階のRLエージェントフレームワークであるRL-Focalを紹介する。
焦点多様性により、報酬意識と政策適応型アンサンブル選択と推論融合を効果的に促進することにより、タスク間のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-02-06T20:44:26Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。