Fugu-MT 論文翻訳(概要): Evaluating and Improving Automated Repository-Level Rust Issue Resolution with LLM-based Agents

論文の概要: Evaluating and Improving Automated Repository-Level Rust Issue Resolution with LLM-based Agents

arxiv url: http://arxiv.org/abs/2602.22764v1
Date: Thu, 26 Feb 2026 08:54:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.606738
Title: Evaluating and Improving Automated Repository-Level Rust Issue Resolution with LLM-based Agents
Title（参考訳）: LLMエージェントによる自動レポジトリレベルラスト問題解決の評価と改善
Authors: Jiahong Xiang, Wenxiao He, Xihua Wang, Hongliang Tian, Yuqun Zhang,
Abstract要約: Rustプログラミング言語は、急な学習曲線と重要なコーディング課題を示す。近年、LLMを利用したコードエージェントは、複雑なソフトウェアエンジニアリングタスクの解決に顕著な成功を収めている。 RUSTFORGERは、自動テスト環境設定とRustメタプログラミング駆動の動的トレース戦略を統合する、新しいエージェント的アプローチである。
参考スコア（独自算出の注目度）: 7.282281491277909
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Rust programming language presents a steep learning curve and significant coding challenges, making the automation of issue resolution essential for its broader adoption. Recently, LLM-powered code agents have shown remarkable success in resolving complex software engineering tasks, yet their application to Rust has been limited by the absence of a large-scale, repository-level benchmark. To bridge this gap, we introduce Rust-SWE-bench, a benchmark comprising 500 real-world, repository-level software engineering tasks from 34 diverse and popular Rust repositories. We then perform a comprehensive study on Rust-SWE-bench with four representative agents and four state-of-the-art LLMs to establish a foundational understanding of their capabilities and limitations in the Rust ecosystem. Our extensive study reveals that while ReAct-style agents are promising, i.e., resolving up to 21.2% of issues, they are limited by two primary challenges: comprehending repository-wide code structure and complying with Rust's strict type and trait semantics. We also find that issue reproduction is rather critical for task resolution. Inspired by these findings, we propose RUSTFORGER, a novel agentic approach that integrates an automated test environment setup with a Rust metaprogramming-driven dynamic tracing strategy to facilitate reliable issue reproduction and dynamic analysis. The evaluation shows that RUSTFORGER using Claude-Sonnet-3.7 significantly outperforms all baselines, resolving 28.6% of tasks on Rust-SWE-bench, i.e., a 34.9% improvement over the strongest baseline, and, in aggregate, uniquely solves 46 tasks that no other agent could solve across all adopted advanced LLMs.
Abstract（参考訳）: Rustプログラミング言語は、学習曲線の急激な曲線と重要なコーディング課題を示し、より広範な採用のためにイシュー解決の自動化が不可欠である。最近、LLMを使ったコードエージェントは、複雑なソフトウェアエンジニアリングタスクの解決に驚くほど成功したが、大規模なリポジトリレベルのベンチマークがないため、Rustへの適用は制限されている。このギャップを埋めるために、Rust-SWE-benchを紹介します。これは、34の多種多様な人気のあるRustリポジトリから、500の現実世界、リポジトリレベルのソフトウェアエンジニアリングタスクで構成されるベンチマークです。次に、Rust-SWE-benchに関する包括的な調査を行い、4つの代表エージェントと4つの最先端のLLMを使って、Rustエコシステムにおけるその機能と制限の基本的な理解を確立しました。我々の広範な調査によると、ReActスタイルのエージェントは21.2%の問題を解決することを約束しているが、リポジトリ全体のコード構造を理解し、Rustの厳格な型とトレイトセマンティクスに従うという2つの主要な課題によって制限されている。また、課題の再現はタスク解決にかなり重要であることもわかりました。 RUSTFORGERは,自動テスト環境設定とRustメタプログラミング駆動の動的トレース戦略を統合し,信頼性の高い問題再現と動的解析を容易にする新しいエージェントアプローチである。評価の結果、Claude-Sonnet-3.7を使用したRASTFORGERは全てのベースラインを大幅に上回り、Rust-SWE-benchでのタスクの28.6%を解決した。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文参考訳（メタデータ） (2026-02-02T17:20:30Z)
QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。 LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文参考訳（メタデータ） (2025-11-03T03:20:26Z)
An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems [66.60904891478687]
複雑な車両ルーティング問題を解決するために,LLM (AFL) を用いたエージェントフレームワークを提案する。 AFLは生の入力から知識を直接抽出し、自己完結型コード生成を可能にする。 AFLは、コード信頼性とソリューション実現性の両方において、既存のLCMベースのベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-10-19T03:59:25Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文参考訳（メタデータ） (2025-08-26T12:48:05Z)
EvoC2Rust: A Skeleton-guided Framework for Project-Level C-to-Rust Translation [17.560908544319094]
EvoC2Rustは、完全なCプロジェクトを同等のRustに変換する自動化フレームワークである。プロジェクトレベルの翻訳には骨格誘導翻訳戦略を採用している。
論文参考訳（メタデータ） (2025-08-06T10:31:23Z)
RefactorBench: Evaluating Stateful Reasoning in Language Agents Through Code [7.156224931977546]
RefactorBenchは、人気のあるオープンソースリポジトリで100の大規模な手作りのマルチファイルタスクからなるベンチマークである。ベースラインは、現在のLMエージェントが単純な構成タスクで苦労していることを明らかにし、ベース命令で22%のタスクしか解決していない。状態表現の条件にベースラインエージェントを適用することにより、RefactorBenchタスクの解決において43.9%の改善が達成される。
論文参考訳（メタデータ） (2025-03-10T20:23:24Z)
Unlocking a New Rust Programming Experience: Fast and Slow Thinking with LLMs to Conquer Undefined Behaviors [9.305729184240272]
Rustは安全性を低下させるUndefined Behaviors (UBs)を導入している。これらのUBをなくすには、Rustの安全ルールと強力な型付けを深く理解する必要がある。 RustプロジェクトにおけるUBを自動的にかつ柔軟に最小化するRustBrainというフレームワークを紹介します。
論文参考訳（メタデータ） (2025-03-04T06:48:45Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
Cumulative Reasoning (CR)は、大規模言語モデル(LLM)問題解決を強化する構造化フレームワークである。 CRはLLMを3つの異なる役割 - Proposer、Verifier(s)、Reporter - タスクを体系的に分解し、中間的推論ステップを生成し、検証し、ソリューションに構成する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。