論文の概要: ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code
- arxiv url: http://arxiv.org/abs/2506.02314v1
- Date: Mon, 02 Jun 2025 23:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.169635
- Title: ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code
- Title(参考訳): ResearchCodeBench: 新たな機械学習研究コードの実装に関するLLMのベンチマーク
- Authors: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber,
- Abstract要約: 大規模言語モデル(LLM)は、機械学習の研究を変革する上で有望であることを示しているが、最近の研究論文から新しいアイデアを忠実に実装する能力は、事前学習の残余が不明である。
我々は、LLMの最先端MLコントリビューションを上位2024~2025研究論文から実行可能なコードに変換する能力を評価する、212のコーディング課題のベンチマークであるResearchCodeBenchを紹介する。
- 参考スコア(独自算出の注目度): 11.357940242851999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown promise in transforming machine learning research, yet their capability to faithfully implement novel ideas from recent research papers-ideas unseen during pretraining-remains unclear. We introduce ResearchCodeBench, a benchmark of 212 coding challenges that evaluates LLMs' ability to translate cutting-edge ML contributions from top 2024-2025 research papers into executable code. We assessed 30+ proprietary and open-source LLMs, finding that even the best models correctly implement less than 40% of the code. We find Gemini-2.5-Pro-Preview to perform best at 37.3% success rate, with O3 (High) and O4-mini (High) following behind at 32.3% and 30.8% respectively. We present empirical findings on performance comparison, contamination, and error patterns. By providing a rigorous and community-driven evaluation platform, ResearchCodeBench enables continuous understanding and advancement of LLM-driven innovation in research code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機械学習の研究を変革する上で有望であることを示しているが、最近の研究論文から新しいアイデアを忠実に実装する能力は、事前学習の残余が不明である。
我々は、LLMの最先端MLコントリビューションを上位2024~2025研究論文から実行可能なコードに変換する能力を評価する、212のコーディング課題のベンチマークであるResearchCodeBenchを紹介する。
私たちは30以上のプロプライエタリでオープンソースのLCMを評価し、最高のモデルでさえ40%未満のコードを正しく実装していることがわかった。
我々は、Gemini-2.5-Pro-Previewが37.3%の成功率で、O3(High)とO4-mini(High)がそれぞれ32.3%、30.8%で最高であると考えている。
性能比較, 汚染, エラーパターンに関する実験的検討を行った。
厳格でコミュニティ主導の評価プラットフォームを提供することで、ResearchCodeBenchは、研究コード生成におけるLLM主導のイノベーションの継続的な理解と進歩を可能にします。
関連論文リスト
- MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:14:58Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。
既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。
コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。