Fugu-MT 論文翻訳(概要): ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code

論文の概要: ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code

arxiv url: http://arxiv.org/abs/2506.02314v1
Date: Mon, 02 Jun 2025 23:04:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.169635
Title: ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code
Title（参考訳）: ResearchCodeBench: 新たな機械学習研究コードの実装に関するLLMのベンチマーク
Authors: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber,
Abstract要約: 大規模言語モデル(LLM)は、機械学習の研究を変革する上で有望であることを示しているが、最近の研究論文から新しいアイデアを忠実に実装する能力は、事前学習の残余が不明である。我々は、LLMの最先端MLコントリビューションを上位2024～2025研究論文から実行可能なコードに変換する能力を評価する、212のコーディング課題のベンチマークであるResearchCodeBenchを紹介する。
参考スコア（独自算出の注目度）: 11.357940242851999
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown promise in transforming machine learning research, yet their capability to faithfully implement novel ideas from recent research papers-ideas unseen during pretraining-remains unclear. We introduce ResearchCodeBench, a benchmark of 212 coding challenges that evaluates LLMs' ability to translate cutting-edge ML contributions from top 2024-2025 research papers into executable code. We assessed 30+ proprietary and open-source LLMs, finding that even the best models correctly implement less than 40% of the code. We find Gemini-2.5-Pro-Preview to perform best at 37.3% success rate, with O3 (High) and O4-mini (High) following behind at 32.3% and 30.8% respectively. We present empirical findings on performance comparison, contamination, and error patterns. By providing a rigorous and community-driven evaluation platform, ResearchCodeBench enables continuous understanding and advancement of LLM-driven innovation in research code generation.
Abstract（参考訳）: 大規模言語モデル(LLM)は、機械学習の研究を変革する上で有望であることを示しているが、最近の研究論文から新しいアイデアを忠実に実装する能力は、事前学習の残余が不明である。我々は、LLMの最先端MLコントリビューションを上位2024～2025研究論文から実行可能なコードに変換する能力を評価する、212のコーディング課題のベンチマークであるResearchCodeBenchを紹介する。私たちは30以上のプロプライエタリでオープンソースのLCMを評価し、最高のモデルでさえ40%未満のコードを正しく実装していることがわかった。我々は、Gemini-2.5-Pro-Previewが37.3%の成功率で、O3(High)とO4-mini(High)がそれぞれ32.3%、30.8%で最高であると考えている。性能比較, 汚染, エラーパターンに関する実験的検討を行った。厳格でコミュニティ主導の評価プラットフォームを提供することで、ResearchCodeBenchは、研究コード生成におけるLLM主導のイノベーションの継続的な理解と進歩を可能にします。

関連論文リスト

LMR-BENCH: Evaluating LLM Agent's Ability on Reproducing Language Modeling Research [32.35279830326718]
大規模言語モデル(LLM)エージェントは、科学的発見の進展に顕著な可能性を証明している。しかし、研究論文、特にNLPドメインからコードを再生する能力は、いまだ解明されていない。本稿ではLMR-BENCHについて述べる。LMR-BENCHは言語モデリング研究におけるLLMエージェントのコード再生能力を評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-06-19T07:04:16Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文参考訳（メタデータ） (2024-03-12T17:58:04Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。