Fugu-MT 論文翻訳(概要): CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories

論文の概要: CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories

arxiv url: http://arxiv.org/abs/2502.06111v1
Date: Mon, 10 Feb 2025 02:46:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.655205
Title: CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories
Title（参考訳）: CSR-Bench:コンピュータサイエンス研究リポジトリのデプロイにおけるLCMエージェントのベンチマーク
Authors: Yijia Xiao, Runhui Wang, Luyang Kong, Davor Golac, Wei Wang,
Abstract要約: 大規模言語モデル(LLM)は、コンピュータ科学研究の様々な分野において大きな進歩を見せている。我々はコンピュータサイエンス研究プロジェクトのベンチマークであるCSR-Benchを紹介する。また、複数のLLMエージェントを使用してGitHubコードリポジトリのデプロイを自動化する新しいフレームワーク、CSR-Agentsも導入しました。
参考スコア（独自算出の注目度）: 4.579838836114489
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The increasing complexity of computer science research projects demands more effective tools for deploying code repositories. Large Language Models (LLMs), such as Anthropic Claude and Meta Llama, have demonstrated significant advancements across various fields of computer science research, including the automation of diverse software engineering tasks. To evaluate the effectiveness of LLMs in handling complex code development tasks of research projects, particularly for NLP/CV/AI/ML/DM topics, we introduce CSR-Bench, a benchmark for Computer Science Research projects. This benchmark assesses LLMs from various aspects including accuracy, efficiency, and deployment script quality, aiming to explore their potential in conducting computer science research autonomously. We also introduce a novel framework, CSR-Agents, that utilizes multiple LLM agents to automate the deployment of GitHub code repositories of computer science research projects. Specifically, by checking instructions from markdown files and interpreting repository structures, the model generates and iteratively improves bash commands that set up the experimental environments and deploy the code to conduct research tasks. Preliminary results from CSR-Bench indicate that LLM agents can significantly enhance the workflow of repository deployment, thereby boosting developer productivity and improving the management of developmental workflows.
Abstract（参考訳）: コンピュータサイエンス研究プロジェクトの複雑さが増すにつれ、コードリポジトリをデプロイするためのより効果的なツールが求められている。 Anthropic Claude や Meta Llama のような大規模言語モデル (LLM) は、多様なソフトウェア工学タスクの自動化など、コンピュータ科学研究の様々な分野において大きな進歩を見せている。研究プロジェクトの複雑なコード開発タスク,特にNLP/CV/AI/ML/DMトピックに対するLLMの有効性を評価するため,コンピュータサイエンス研究プロジェクトのベンチマークであるCSR-Benchを紹介する。このベンチマークは、コンピュータサイエンス研究を自律的に実施する可能性を探るため、精度、効率、デプロイメントスクリプトの品質など、様々な側面からLCMを評価する。コンピュータサイエンス研究プロジェクトのGitHubコードリポジトリのデプロイを自動化するために,複数のLLMエージェントを利用する新しいフレームワークであるCSR-Agentsも紹介する。具体的には、マークダウンファイルからの命令をチェックし、リポジトリ構造を解釈することで、実験環境をセットアップするbashコマンドを生成して反復的に改善し、研究タスクを実行するためにコードをデプロイする。 CSR-Benchの予備的な結果は、LLMエージェントがリポジトリのデプロイメントのワークフローを大幅に強化し、開発者の生産性を高め、開発ワークフローの管理を改善することを示唆している。

関連論文リスト

A Survey on Code Generation with LLM-based Agents [33.44509586789614]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。 LLMは3つのコア特徴によって特徴づけられる。本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文参考訳（メタデータ） (2025-07-31T18:17:36Z)
ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies [16.90884865239373]
本研究では,研究方法論の体系化を自動化する新しいマルチエージェントシステムであるResearchCodeAgentを紹介する。このシステムは、ハイレベルな研究概念と実践的な実装のギャップを埋める。 ResearchCodeAgentは、研究実施プロセスに向けた重要なステップであり、機械学習研究のペースを加速する可能性がある。
論文参考訳（メタデータ） (2025-04-28T07:18:45Z)
Assessing LLMs for Front-end Software Architecture Knowledge [0.0]
大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において大きな可能性を証明している。本研究では,VIPER アーキテクチャ内の構造を理解し,再現し,生成する LLM の機能について検討する。実験の結果、ChatGPT 4 Turbo 2024-04-09 を用いて、LLM は評価や作成といった高次タスクに優れていたが、アーキテクチャの詳細の正確な検索を必要とする低次タスクでは課題に直面していたことが明らかとなった。
論文参考訳（メタデータ） (2025-02-26T19:33:35Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
A Framework for Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-15T06:08:57Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。 LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文参考訳（メタデータ） (2024-02-22T03:51:34Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Self-collaboration Code Generation via ChatGPT [35.88318116340547]
大規模言語モデル(LLM)はコード生成能力に優れていますが、複雑なタスクに苦労しています。本稿では,ChatGPT で実証した LLM を用いたコード生成のための自己協調フレームワークを提案する。この仮想チームを効果的に組織化し、管理するために、ソフトウェア開発方法論をフレームワークに組み入れます。
論文参考訳（メタデータ） (2023-04-15T16:33:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。