Fugu-MT 論文翻訳(概要): Narrowing the Complexity Gap in the Evaluation of Large Language Models

論文の概要: Narrowing the Complexity Gap in the Evaluation of Large Language Models

arxiv url: http://arxiv.org/abs/2602.18928v1
Date: Sat, 21 Feb 2026 18:39:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.399207
Title: Narrowing the Complexity Gap in the Evaluation of Large Language Models
Title（参考訳）: 大規模言語モデルの評価における複雑性ギャップの狭化
Authors: Yang Chen, Shuyang Liu, Reyhaneh Jabbarvand,
Abstract要約: 現実のコードの複雑さに関して、LLM(Large Language Models)を評価することが不可欠です。我々は,任意のプログラムベンチマークに実世界の複雑さを追加する自動手法であるGeneBenchを提案する。
参考スコア（独自算出の注目度）: 7.915455233884959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating Large Language Models (LLMs) with respect to real-world code complexity is essential. Otherwise, there is a risk of overestimating LLMs' programming abilities based on simplistic benchmarks, only to be disappointed when using them in real-world settings. Recently, researchers explored the construction of more realistic benchmarks by mining or augmenting open-source repositories. Such solutions are usually task-specific. Data quality control from real-world projects can also be time-consuming and error-prone. More importantly, evaluating LLMs on fixed benchmark problems is subject to data contamination and overfitting. We propose GeneBench, an automated technique to add real-world complexities to any programming benchmark. GeneBench leverages a multi-objective optimization to increase the complexity of programming problems while maintaining the readability of code similar to real-world programs. Transforming four widely-used programming benchmarks using GeneBench and evaluating 13 LLMs (including two reasoning LLMs) on them shows a notable performance drop across all programming tasks (14.9%-60.5%, avg=35.2%), demonstrating LLMs' struggle under real-world complexities. The struggle persists even when LLMs are few-shot prompted or fine-tuned with examples from different versions of GeneBench, demonstrating the challenging nature of the problems. Finally, we show that the performance of the studied LLMs in bug repair is similar under GeneBench and SWE-Bench. This, along with the consistent reproduction of performance drop of all studied LLMs across four tasks under different versions of GeneBench, makes the technique suitable to evaluate LLMs without costly construction of real-world benchmarks.
Abstract（参考訳）: 現実のコードの複雑さに関して、LLM(Large Language Models)を評価することが不可欠である。さもなければ、単純なベンチマークに基づいてLLMのプログラミング能力を過大評価するリスクがあるが、現実の環境で使うと失望してしまう。近年,オープンソースリポジトリのマイニングや拡張による,より現実的なベンチマークの構築が検討されている。そのような解は通常タスク固有である。実世界のプロジェクトからのデータ品質管理には時間がかかるし、エラーも起こりやすい。さらに重要なことは、固定ベンチマーク問題に対するLCMの評価は、データの汚染と過度な適合が伴うことである。我々は,任意のプログラムベンチマークに実世界の複雑さを追加する自動手法であるGeneBenchを提案する。 GeneBenchは、実世界のプログラムと同様のコードの可読性を維持しながら、プログラミング問題の複雑さを増大させるために、多目的最適化を活用している。 GeneBenchを使って4つの広く使われているプログラミングベンチマークをトランスフォーミングし、13のLLM(2つのLCMを含む)を評価すると、すべてのプログラミングタスク(14.9%-60.5%、avg=35.2%)で顕著なパフォーマンス低下を示し、LLMが現実の複雑さの下で苦戦していることを示す。 LLMがGeneBenchの異なるバージョンからのサンプルをトリガーしたり、微調整したりしても、この闘争は継続し、問題の難しさを実証している。最後に, バグ修復におけるLLMの性能は GeneBench と SWE-Bench に類似していることを示す。これは、GeneBenchの異なるバージョン下での4つのタスクにまたがる全てのLLMの性能低下を一貫した再現とともに、実世界のベンチマークを構築することなくLCMを評価するのに適している。

関連論文リスト

LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。 NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文参考訳（メタデータ） (2025-11-13T23:19:43Z)
An Experimental Study of Real-Life LLM-Proposed Performance Improvements [2.503024366864326]
大きな言語モデル(LLM)はコードを生成することができますが、高速コードを生成することができますか? 我々は,オープンソースのJavaプログラムから抽出した65の実世界のタスクのデータセットを用いて,この問題を研究する。
論文参考訳（メタデータ） (2025-10-17T10:06:52Z)
Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems [0.0]
ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革しています。この研究は、容易、中、難易度にまたがる100と50のLeetCode問題に対して、これらの4つの著名なLLMをベンチマークする。我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。
論文参考訳（メタデータ） (2025-08-05T21:50:52Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
A Systematic Approach for Assessing Large Language Models' Test Case Generation Capability [0.8287206589886879]
大規模言語モデル (LLM) を評価するために,制御フロー構造と可変利用構成 (GBCV) から生成したベンチマークを提案する。基本的な制御フロー構造と変数使用量を活用することで、GBCVは、単純なプログラムから複雑なプログラムの範囲を作成する柔軟なフレームワークを提供する。以上の結果から,GPT-4oは複雑なプログラム構造において優れた性能を示し,全てのモデルが単純な条件下で境界値を効果的に検出するが,算術計算では問題に直面することが示唆された。
論文参考訳（メタデータ） (2025-02-05T03:51:44Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。