論文の概要: MEC$^3$O: Multi-Expert Consensus for Code Time Complexity Prediction
- arxiv url: http://arxiv.org/abs/2510.09049v1
- Date: Fri, 10 Oct 2025 06:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.29005
- Title: MEC$^3$O: Multi-Expert Consensus for Code Time Complexity Prediction
- Title(参考訳): MEC$^3$O: コード時間複雑度予測のためのマルチエキスパート合意
- Authors: Joonghyuk Hahn, Soohan Lim, Yo-Sub Han,
- Abstract要約: コードの複雑さを予測するマルチエキスパートコンセンサスシステムMEC$3$Oを提案する。
CodeComplexの実験では、MEC$3$Oは少なくとも10%高い精度とマクロF1スコアを達成する。
これは、最終予測を生成するための多専門家の議論と重み付け戦略の有効性を示す。
- 参考スコア(独自算出の注目度): 6.644994424048165
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting the complexity of source code is essential for software development and algorithm analysis. Recently, Baik et al. (2025) introduced CodeComplex for code time complexity prediction. The paper shows that LLMs without fine-tuning struggle with certain complexity classes. This suggests that no single LLM excels at every class, but rather each model shows advantages in certain classes. We propose MEC$^3$O, a multi-expert consensus system, which extends the multi-agent debate frameworks. MEC$^3$O assigns LLMs to complexity classes based on their performance and provides them with class-specialized instructions, turning them into experts. These experts engage in structured debates, and their predictions are integrated through a weighted consensus mechanism. Our expertise assignments to LLMs effectively handle Degeneration-of-Thought, reducing reliance on a separate judge model, and preventing convergence to incorrect majority opinions. Experiments on CodeComplex show that MEC$^3$O outperforms the open-source baselines, achieving at least 10% higher accuracy and macro-F1 scores. It also surpasses GPT-4o-mini in macro-F1 scores on average and demonstrates competitive on-par F1 scores to GPT-4o and GPT-o4-mini on average. This demonstrates the effectiveness of multi-expert debates and weight consensus strategy to generate the final predictions. Our code and data is available at https://github.com/suhanmen/MECO.
- Abstract(参考訳): ソースコードの複雑さを予測することは、ソフトウェア開発とアルゴリズム分析に不可欠である。
最近Baik氏(2025年)は、コード時間複雑性の予測にCodeComplexを導入した。
本稿は,LLMが特定の複雑性クラスと微調整の苦労を伴わないことを示す。
これは、全てのクラスにおいて単一のLLMが排他的ではなく、むしろ各モデルが特定のクラスで利点を示すことを示唆している。
我々は,マルチエージェントの議論フレームワークを拡張するマルチエキスパートコンセンサスシステムMEC$^3$Oを提案する。
MEC$^3$O は LLM をそのパフォーマンスに基づいた複雑性クラスに割り当て、クラス特化命令を提供して専門家にする。
これらの専門家は構造化された議論に従事し、それらの予測は重み付けされたコンセンサス機構を通じて統合される。
LLMの専門的な課題は、Degeneration-of-Thoughtを効果的に処理し、独立した判断モデルへの依存を減らし、不正な多数意見への収束を防ぎます。
CodeComplexの実験によると、MEC$^3$Oはオープンソースベースラインよりも優れており、少なくとも10%高い精度とマクロF1スコアを達成している。
また、マクロF1ではGPT-4o-miniを平均で上回り、GPT-4oやGPT-o4-miniと平均で競合する。
これは、最終予測を生成するための多専門家の議論と重み付け戦略の有効性を示す。
私たちのコードとデータはhttps://github.com/suhanmen/MECO.comで公開されています。
関連論文リスト
- Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Towards LLM-based optimization compilers. Can LLMs learn how to apply a single peephole optimization? Reasoning is all LLMs need! [0.9054540533394926]
細調整されていないOpenAI GPT-o1は、微調整されたLlama2とGPT-4oより優れていることを示す。
この利点は, GPT-o1に実装された連鎖推論が原因であることが示唆された。
論文 参考訳(メタデータ) (2024-12-11T18:44:31Z) - Filtered not Mixed: Stochastic Filtering-Based Online Gating for Mixture of Large Language Models [18.368001176275364]
MoE-Fは、オンライン時系列予測に$N$事前訓練された大規模言語モデル(LLM)を組み合わせるための形式化されたメカニズムである。
我々のメカニズムは,各専門家のランニング性能の条件情報を利用して,次のステップで時系列を予測するためのLLMの最適な組み合わせを予測する。
論文 参考訳(メタデータ) (2024-06-05T05:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。