Fugu-MT 論文翻訳(概要): RustEvo^2: An Evolving Benchmark for API Evolution in LLM-based Rust Code Generation

論文の概要: RustEvo^2: An Evolving Benchmark for API Evolution in LLM-based Rust Code Generation

arxiv url: http://arxiv.org/abs/2503.16922v1
Date: Fri, 21 Mar 2025 07:33:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.327178
Title: RustEvo^2: An Evolving Benchmark for API Evolution in LLM-based Rust Code Generation
Title（参考訳）: RustEvo^2: LLMベースのRustコード生成におけるAPI進化のための進化的ベンチマーク
Authors: Linxi Liang, Jing Gong, Mingwei Liu, Chong Wang, Guangsheng Ou, Yanlin Wang, Xin Peng, Zibin Zheng,
Abstract要約: RustEvoは、大きな言語モデルがRust APIに適応する能力を評価するためのフレームワークである。実際の課題を反映したプログラミングタスクに588のAPI変更を合成することで、データセット生成を自動化する。最先端 (SOTA) LLM 実験では, 性能が著しく変化した。
参考スコア（独自算出の注目度）: 28.156862491709237
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large Language Models (LLMs) have become pivotal tools for automating code generation in software development. However, these models face significant challenges in producing version-aware code for rapidly evolving languages like Rust, where frequent Application Programming Interfaces (API) changes across versions lead to compatibility issues and correctness errors. Existing benchmarks lack systematic evaluation of how models navigate API transitions, relying on labor-intensive manual curation and offering limited version-specific insights. To address this gap, we present RustEvo, a novel framework for constructing dynamic benchmarks that evaluate the ability of LLMs to adapt to evolving Rust APIs. RustEvo automates dataset creation by synthesizing 588 API changes (380 from Rust standard libraries, 208 from 15 third-party crates) into programming tasks mirroring real-world challenges. These tasks cover four API evolution categories: Stabilizations, Signature Changes, Behavioral Changes, and Deprecations, reflecting their actual distribution in the Rust ecosystem. Experiments on state-of-the-art (SOTA) LLMs reveal significant performance variations: models achieve a 65.8% average success rate on stabilized APIs but only 38.0% on behavioral changes, highlighting difficulties in detecting semantic shifts without signature alterations. Knowledge cutoff dates strongly influence performance, with models scoring 56.1% on before-cutoff APIs versus 32.5% on after-cutoff tasks. Retrieval-Augmented Generation (RAG) mitigates this gap, improving success rates by 13.5% on average for APIs released after model training. Our findings underscore the necessity of our evolution-aware benchmarks to advance the adaptability of LLMs in fast-paced software ecosystems. The framework and the benchmarks are publicly released at https://github.com/SYSUSELab/RustEvo.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ソフトウェア開発におけるコード生成を自動化する重要なツールとなっている。しかし、これらのモデルは、Rustのような急速に進化する言語のためのバージョン対応コードを生成する上で、大きな課題に直面している。既存のベンチマークでは、モデルがAPI移行をどのようにナビゲートするかの体系的な評価がなく、労働集約的な手作業によるキュレーションに依存し、限定バージョン固有の洞察を提供する。このギャップに対処するために、LLMがRust APIに適応可能であることを評価する、動的ベンチマークを構築するための新しいフレームワークであるRustEvoを紹介します。 RustEvoは,588のAPI変更(Rust標準ライブラリから380,サードパーティクラッドから208)を,現実の課題を反映したプログラミングタスクに合成することで,データセット生成を自動化する。これらのタスクは、安定化、署名の変更、振る舞いの変更、非推奨の4つのAPI進化カテゴリをカバーし、Rustエコシステムにおける実際の分散を反映している。モデルは安定化されたAPI上で65.8%の平均的な成功率を達成するが、行動の変化は38.0%に過ぎず、署名変更なしでセマンティックシフトを検出することの難しさを強調している。知識のカットオフはパフォーマンスに強く影響を与え、前カットのAPIでは56.1%、後カットのタスクでは32.5%である。 Retrieval-Augmented Generation (RAG)はこのギャップを軽減し、モデルトレーニング後にリリースされたAPIの平均的な成功率を13.5%向上させる。我々の発見は、高速ペースのソフトウェアエコシステムにおけるLCMの適応性を向上させるために、進化を意識したベンチマークの必要性を浮き彫りにした。フレームワークとベンチマークはhttps://github.com/SYSUSELab/RustEvo.comで公開されている。

関連論文リスト

EVOC2RUST: A Skeleton-guided Framework for Project-Level C-to-Rust Translation [16.12483934561206]
EvoC2Rustは、Cプロジェクト全体を同等のRustに変換する自動化フレームワークである。オープンソースベンチマークと6つの産業プロジェクトに対する評価は,プロジェクトレベルのC-to-Rust翻訳におけるEvoC2Rustの優れた性能を示している。
論文参考訳（メタデータ） (2025-08-06T10:31:23Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test [25.703729145091483]
LLMコミュニティのトレンドは、推論コストを増大させることなく、モデルインテリジェンスを改善するためにトレーニングデータをスケールアップすることです。データのスケールアップがEagleプログラムに限定的な改善をもたらすことを観察する。直接トークン予測に有利な特徴予測を放棄し,マルチ層機能融合によるトップ層機能への依存を代替するEagle-3を導入する。
論文参考訳（メタデータ） (2025-03-03T18:59:04Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Revisiting VerilogEval: A Year of Improvements in Large-Language Models for Hardware Code Generation [6.463959200930805]
オープンソースのVerilogEvalベンチマークのリリース以降,新しい商用およびオープンなモデルを評価する。最先端のモデルでは測定可能な改善が得られます。高いパスレートを達成するためには、迅速なエンジニアリングが不可欠であることに気付きました。
論文参考訳（メタデータ） (2024-08-20T17:58:56Z)
Mitigating the Impact of Malware Evolution on API Sequence-based Windows Malware Detector [5.953199557879621]
APIシーケンスに基づく手法は、マルウェア予防において重要な役割を果たす。進化したマルウェアサンプルは、しばしば、進化前のサンプルのAPIシーケンスを使用して、同様の悪意のある振る舞いを達成する。本稿では,既存のAPIシーケンスに基づくマルウェア検出機能を拡張可能なフレーム(MME)フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-03T04:21:24Z)
Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。 STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文参考訳（メタデータ） (2024-05-23T04:27:11Z)
RoBERTa-Augmented Synthesis for Detecting Malicious API Requests [9.035212370386846]
GANにインスパイアされた学習フレームワークを導入し、ターゲットとなるドメイン認識合成を通じて限られたAPIトラフィックデータセットを拡張する。我々は,CSIC 2010 と ATRDF 2023 の2つのベンチマークデータセット上でフレームワークを評価し,従来のデータ拡張手法と比較した。 CSIC 2010ではF1スコアが4.94%増加し,ATRDF 2023では21.10%向上した。
論文参考訳（メタデータ） (2024-05-18T11:10:45Z)
Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文参考訳（メタデータ） (2024-04-02T01:29:28Z)
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models [74.88844320554284]
ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
論文参考訳（メタデータ） (2024-03-12T14:57:40Z)
GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。 GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文参考訳（メタデータ） (2023-10-16T09:24:20Z)
Multi-Granularity Detector for Vulnerability Fixes [13.653249890867222]
脆弱性修正のためのMiDa(Multi-Granularity Detector for Vulnerability Fixes)を提案する。 MiDasはコミットレベル、ファイルレベル、ハンクレベル、ラインレベルに対応して、コード変更の粒度ごとに異なるニューラルネットワークを構築する。 MiDasは、現在の最先端のベースラインをAUCで4.9%、JavaとPythonベースのデータセットで13.7%上回っている。
論文参考訳（メタデータ） (2023-05-23T10:06:28Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。