論文の概要: RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust
- arxiv url: http://arxiv.org/abs/2411.13990v6
- Date: Fri, 17 Oct 2025 13:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.513744
- Title: RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust
- Title(参考訳): RustRepoTrans: Rustをターゲットにしたリポジトリレベルのコード翻訳ベンチマーク
- Authors: Guangsheng Ou, Mingwei Liu, Yuxuan Chen, Yanlin Wang, Xin Peng, Zibin Zheng,
- Abstract要約: RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
- 参考スコア(独自算出の注目度): 50.65321080814249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have demonstrated impressive capabilities in code translation, typically evaluated using benchmarks like CodeTransOcean and RepoTransBench. However, dependency-free benchmarks fail to capture real-world complexities by focusing primarily on simple function-level translations and overlooking repository-level context (e.g., dependencies). Full-repository translation benchmarks significantly exceed the current capabilities of existing models, resulting in performance bottlenecks that fail to provide actionable insights for guiding model development. Furthermore, existing benchmarks do not account for the scenario of incrementally translating new or modified modules from the source to the target language, which demands careful handling of repository-level contexts such as dependencies, cross-module references, and architectural divergence. Moreover, LLMs' effectiveness in translating to newer, low-resource languages like Rust remains largely underexplored. To address these gaps, we introduce RustRepoTrans, the first repository-level context code translation benchmark targeting incremental translation, comprising 375 tasks translating into Rust from C, Java, and Python. Using this benchmark, we evaluate seven representative LLMs, analyzing their errors to assess limitations in complex translation scenarios. Among them, DeepSeek-R1 performs best with 51.5% Pass@1, excelling in both basic functionality and additional translation abilities, such as noise robustness and syntactical difference identification. However, even DeepSeek-R1 experiences a 22.2% performance drop (Pass@1 from 73.7% to 51.5%) when handling repository-level context compared to previous benchmarks without such context.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、CodeTransOceanやRepoTransBenchといったベンチマークを用いて評価されるコード翻訳において、印象的な能力を示している。
しかし、依存性のないベンチマークは、単純な関数レベルの翻訳とリポジトリレベルのコンテキスト(例えば、依存関係)を見渡すことで、現実世界の複雑さを捉えることができません。
完全なリポジトリ翻訳ベンチマークは、既存のモデルの現在の能力を大幅に上回っており、結果としてパフォーマンスボトルネックが発生し、モデル開発を導くための実用的な洞察が得られない。
さらに、既存のベンチマークでは、依存関係、クロスモジュール参照、アーキテクチャのばらつきといったリポジトリレベルのコンテキストを慎重に扱う必要があるため、新しいモジュールや修正モジュールをソースからターゲット言語にインクリメンタルに翻訳するシナリオを考慮していない。
さらに、Rustのような新しい低リソース言語への翻訳におけるLLMの有効性は、大半が調査されていない。
このギャップに対処するため、最初のリポジトリレベルのコンテキストコード変換ベンチマークであるRustRepoTransを紹介した。
このベンチマークを用いて、7つの代表的なLCMを評価し、それらのエラーを分析し、複雑な翻訳シナリオにおける制限を評価する。
中でもDeepSeek-R1は51.5%のPass@1で最高のパフォーマンスを示し、ノイズの堅牢性や構文的差分識別といった基本的な機能と追加の翻訳能力に優れていた。
しかし、DeepSeek-R1でさえ、そのようなコンテキストのない以前のベンチマークと比較してリポジトリレベルのコンテキストを扱う場合、22.2%のパフォーマンス低下(Pass@1は73.7%から51.5%)を経験している。
関連論文リスト
- NL in the Middle: Code Translation with LLMs and Intermediate Representations [66.41928783565795]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。
LLMを用いたコード翻訳が自然言語(NL)と抽象構文木(AST)による中間表現の恩恵を受けるかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-11T14:29:21Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - LLMigrate: Transforming "Lazy" Large Language Models into Efficient Source Code Migrators [21.114491141763647]
RustでCコードを書き直すことでメモリの安全性が向上するが、32万行のLinuxカーネルのような大規模なマイグレーションは依然として困難である。
最近のLarge Language Model (LLM)アプローチは、より慣用的で安全なRustプログラムを生成するが、しばしば"遅延"を示す。
LLMベースのC-to-Rust翻訳ツールはモジュールを個別の関数に分割し、個別に翻訳し、再統合する。
論文 参考訳(メタデータ) (2025-03-31T07:09:07Z) - Enhancing LLM-based Code Translation in Repository Context via Triple Knowledge-Augmented [25.812942624520694]
大規模言語モデル(LLM)は、リポジトリレベルのコンテキストなしで関数レベルのコード変換でうまく振る舞っている。
我々は,3つの知識を付加したK-Transを提案し,レポジトリコンテキスト下でのLLMの翻訳品質を向上させる。
実験の結果、K-Transは、CodeBLEUのpass@1と0.138の相対的な改善により、以前の研究に適合したベースラインを19.4%/40.2%で大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-24T03:10:34Z) - LLM-Driven Multi-step Translation from C to Rust using Static Analysis [27.122409727034192]
レガシー言語で書かれたソフトウェアをCからRustなどのモダン言語に翻訳することは、メモリ安全性を改善する上で大きなメリットがある。
LLM駆動型C-to-Rustゼロショット変換ツールであるSACTORを2段階の翻訳手法を用いて提案する。
SACTORは、既存の方法と比較して、より自然でRustに準拠した翻訳を生成する。
論文 参考訳(メタデータ) (2025-03-16T14:05:26Z) - Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。
しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。
我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文 参考訳(メタデータ) (2025-03-06T12:14:45Z) - RepoTransBench: A Real-World Benchmark for Repository-Level Code Translation [44.856816446807265]
リポジトリレベルのコード変換(Repository-level code translation)とは、コードリポジトリ全体をあるプログラミング言語から別の言語に翻訳することを指す。
以前のベンチマークでは、コードスニペット、関数、ファイルレベルのコード変換のいずれかに焦点を当てた、きめ細かいサンプルが提供されていた。
自動実行テストスイートを備えた実世界のリポジトリレベルのコード翻訳ベンチマークであるRepoTransBenchを提案する。
論文 参考訳(メタデータ) (2024-12-23T17:52:10Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - AAVENUE: Detecting LLM Biases on NLU Tasks in AAVE via a Novel Benchmark [3.1927733045184885]
AAVENUE は、AAVE と Standard American English の NLU タスクにおける大きな言語モデル (LLM) のパフォーマンスを評価するためのベンチマークである。
AAVENUE と VALUE の翻訳を,5つの人気のある LLM と,フルーエンシ,BARTScore,品質,コヒーレンス,理解可能性などの総合的な指標を用いて比較した。
評価の結果, LLM は AAVE に翻訳されたバージョンよりも, SAE タスクで一貫した性能が向上し, 固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-08-27T07:56:35Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Towards Translating Real-World Code with LLMs: A Study of Translating to Rust [13.743967357458287]
大規模言語モデル(LLM)は、ほとんどのプログラミング言語でコードを記述する能力のため、コード翻訳において有望であることを示す。
実世界のオープンソースプロジェクトから抽出したコードについて検討する。
FLOURINEは、差分ファジィを使用して、Rust翻訳が元のソースプログラムと同等のI/Oかどうかをチェックする、エンドツーエンドのコード変換ツールである。
論文 参考訳(メタデータ) (2024-05-19T10:54:03Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。