Fugu-MT 論文翻訳(概要): SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

論文の概要: SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

arxiv url: http://arxiv.org/abs/2504.00255v1
Date: Mon, 31 Mar 2025 22:02:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:08.74615
Title: SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers
Title（参考訳）: SciReplicate-Bench:研究論文からのエージェント駆動型アルゴリズム再現におけるLCMのベンチマーク
Authors: Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He,
Abstract要約: 本研究では,最近のNLP論文のアルゴリズム記述からコードを生成する際の言語モデル (LLM) を評価する。厳密な評価を容易にするため、2024年に発行された36のNLP論文から100のタスクのベンチマークであるSciReplicate-Benchを紹介する。 SciReplicate-Bench上に構築されたSci-Reproducerは,論文からアルゴリズムの概念を解釈するPaper Agentと,リポジトリから依存関係を検索してソリューションを実装するCode Agentから構成されるマルチエージェントフレームワークである。
参考スコア（独自算出の注目度）: 16.80818230868491
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study evaluates large language models (LLMs) in generating code from algorithm descriptions from recent NLP papers. The task requires two key competencies: (1) algorithm comprehension: synthesizing information from papers and academic literature to understand implementation logic, and (2) coding expertise: identifying dependencies and correctly implementing necessary APIs. To facilitate rigorous evaluation, we introduce SciReplicate-Bench, a benchmark of 100 tasks from 36 NLP papers published in 2024, featuring detailed annotations and comprehensive test cases. Building on SciReplicate-Bench, we propose Sci-Reproducer, a multi-agent framework consisting of a Paper Agent that interprets algorithmic concepts from literature and a Code Agent that retrieves dependencies from repositories and implement solutions. To assess algorithm understanding, we introduce reasoning graph accuracy, which quantifies similarity between generated and reference reasoning graphs derived from code comments and structure. For evaluating implementation quality, we employ execution accuracy, CodeBLEU, and repository dependency/API recall metrics. In our experiments, we evaluate various powerful Non-Reasoning LLMs and Reasoning LLMs as foundational models. The best-performing LLM using Sci-Reproducer achieves only 39% execution accuracy, highlighting the benchmark's difficulty.Our analysis identifies missing or inconsistent algorithm descriptions as key barriers to successful reproduction. We will open-source our benchmark, and code at https://github.com/xyzCS/SciReplicate-Bench.
Abstract（参考訳）: 本研究では,最近のNLP論文のアルゴリズム記述からコードを生成する際の言語モデル (LLM) を評価する。 1) アルゴリズム理解: 論文や学術文献から情報を合成して実装ロジックを理解すること,(2) コーディングの専門知識: 依存関係を識別し,必要なAPIを正しく実装すること,である。厳密な評価を容易にするため、2024年に発行された36のNLP論文から100のタスクのベンチマークであるSciReplicate-Benchを紹介し、詳細なアノテーションと包括的なテストケースを特徴とする。 SciReplicate-Bench上に構築されたSci-Reproducerは,論文からアルゴリズムの概念を解釈するPaper Agentと,リポジトリから依存関係を検索してソリューションを実装するCode Agentから構成されるマルチエージェントフレームワークである。アルゴリズムの理解を評価するために,コードコメントと構造から生成された推論グラフと参照推論グラフの類似性を定量化する推論グラフの精度を導入する。実装品質の評価には,実行精度,CodeBLEU,リポジトリ依存性/APIリコールメトリクスを用いる。実験では, 各種非共振LDMと共振LDMを基礎モデルとして評価した。 Sci-Reproducerを用いた最高の性能のLLMは、ベンチマークの難易度を強調して、わずか39%の実行精度しか達成していない。ベンチマークとコードはhttps://github.com/xyzCS/SciReplicate-Bench.comで公開します。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。 PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文参考訳（メタデータ） (2025-04-02T15:55:24Z)
Rubric Is All You Need: Enhancing LLM-based Code Evaluation With Question-Specific Rubrics [1.3707925738322797]
LLMに基づくコード評価に注力し、既存のギャップを埋めようとしている。本稿では,問題文に適合した疑問特化ルーブを用いたマルチエージェントな新しい手法を提案する。包括的分析により,問題固有のルーリックは,学習環境におけるコードの論理的評価を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-03-31T11:59:43Z)
Code Summarization Beyond Function Level [0.213063058314067]
本研究では,関数レベルを超えたコード要約モデルの有効性について検討した。微調整された最先端のCodeT5+ベースモデルは、コード要約に優れていた。リポジトリレベルの要約は有望なポテンシャルを示したが、かなりの計算資源を必要とした。
論文参考訳（メタデータ） (2025-02-23T20:31:21Z)
AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。 LLM 生成データ解析の $itRepr$oducibility を自動的に評価し,改善するための $itA$nalyst - $itI$nspector フレームワークである $itAIRepr を提示する。
論文参考訳（メタデータ） (2025-02-23T01:15:50Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。 LLMは素晴らしい経験的成功を収めた。提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文参考訳（メタデータ） (2024-07-20T07:39:07Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
The CLRS-Text Algorithmic Reasoning Language Benchmark [48.45201665463275]
CLRS-TextはCLRSベンチマークのテキストバージョンである。 CLRS-Textは、30の多様な、挑戦的なアルゴリズムタスクのためのトレースデータを手続き的に生成することができる。このベンチマークでは、様々なLMをジェネラリストエグゼクタとして微調整し評価する。
論文参考訳（メタデータ） (2024-06-06T16:29:25Z)
Leveraging Generative AI: Improving Software Metadata Classification with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文参考訳（メタデータ） (2023-10-14T12:09:43Z)
A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。 2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%～30%、ハードケースでは36%～43%である。
論文参考訳（メタデータ） (2023-03-23T16:15:03Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。