Fugu-MT 論文翻訳(概要): Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation

論文の概要: Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation

arxiv url: http://arxiv.org/abs/2501.16050v1
Date: Mon, 27 Jan 2025 13:44:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.941672
Title: Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation
Title（参考訳）: Skeleton-Guided-Translation: コードリポジトリ翻訳のためのベンチマークフレームワーク
Authors: Xing Zhang, Jiaheng Wen, Fangkai Yang, Pu Zhao, Yu Kang, Junhao Wang, Maoquan Wang, Yufan Huang, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
Abstract要約: Skeleton-Guided-Translationは、リポジトリレベルのJavaからC#へのコード変換のためのフレームワークで、きめ細かい品質評価がある。本稿では,高品質なオープンソースJavaレポジトリとその対応するC#スケルトンベンチマークであるTransREPO-BENCHを紹介する。
参考スコア（独自算出の注目度）: 37.25839260805938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advancement of large language models has intensified the need to modernize enterprise applications and migrate legacy systems to secure, versatile languages. However, existing code translation benchmarks primarily focus on individual functions, overlooking the complexities involved in translating entire repositories, such as maintaining inter-module coherence and managing dependencies. While some recent repository-level translation benchmarks attempt to address these challenges, they still face limitations, including poor maintainability and overly coarse evaluation granularity, which make them less developer-friendly. We introduce Skeleton-Guided-Translation, a framework for repository-level Java to C# code translation with fine-grained quality evaluation. It uses a two-step process: first translating the repository's structural "skeletons", then translating the full repository guided by these skeletons. Building on this, we present TRANSREPO-BENCH, a benchmark of high quality open-source Java repositories and their corresponding C# skeletons, including matching unit tests and build configurations. Our unit tests are fixed and can be applied across multiple or incremental translations without manual adjustments, enhancing automation and scalability in evaluations. Additionally, we develop fine-grained evaluation metrics that assess translation quality at the individual test case level, addressing traditional binary metrics' inability to distinguish when build failures cause all tests to fail. Evaluations using TRANSREPO-BENCH highlight key challenges and advance more accurate repository level code translation.
Abstract（参考訳）: 大規模言語モデルの進歩により、エンタープライズアプリケーションを近代化し、レガシーシステムをセキュアで汎用的な言語に移行する必要性が高まっている。しかし、既存のコード翻訳ベンチマークは主に個々の関数に焦点を当てており、モジュール間の一貫性の維持や依存関係の管理など、リポジトリ全体の翻訳に関わる複雑さを見下ろしている。最近のリポジトリレベルの翻訳ベンチマークではこれらの課題に対処しようと試みているが、メンテナンス性の貧弱さや過剰な評価の粒度など、制限に直面している。我々は、リポジトリレベルのJavaからC#へのコード変換のためのフレームワークであるSkeleton-Guided-Translationを紹介します。まず、リポジトリの構造的“骨格”を翻訳し、次に、これらのスケルトンによってガイドされた完全なリポジトリを翻訳する。これに基づいて、高品質なオープンソースJavaリポジトリとそれに対応するC#スケルトンをベンチマークしたTransREPO-BENCHを紹介します。ユニットテストは修正され、手動で調整することなく、複数のあるいはインクリメンタルな翻訳に適用できます。さらに、個々のテストケースレベルで翻訳品質を評価するためのきめ細かい評価指標を開発し、従来のバイナリメトリクスがビルド失敗によってすべてのテストがフェールした場合に区別できない問題に対処します。 TransREPO-BENCHによる評価は、重要な課題を浮き彫りにして、より正確なリポジトリレベルのコード変換を推進している。

関連論文リスト

MRG-Bench: Evaluating and Exploring the Requirements of Context for Repository-Level Code Generation [0.7342677574855649]
大規模言語モデルのより正確な評価を提供する新しいデータセットである textbfMRG-Bench を紹介する。我々は,大規模言語モデル,長期コンテキストモデル,RAG関連手法を含む実験を行う。その結果、ほとんどの手法は「ユーザ要求を理解することの難しさ」に悩まされており、割り当てられたタスクを正確に理解できないことがわかった。
論文参考訳（メタデータ） (2025-08-05T01:53:45Z)
Quality Evaluation of COBOL to Java Code Transformation [0.22499166814992438]
我々は,IBMのWatsonx Code Assistant for Z (WCA4Z)におけるコード翻訳の自動評価システムを提案する。このシステムは、モデル不透明度や翻訳品質評価の複雑さなど、LLMベースの翻訳者を評価する上で重要な課題に対処する。
論文参考訳（メタデータ） (2025-07-31T09:06:20Z)
Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。 RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文参考訳（メタデータ） (2025-07-14T02:36:27Z)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering [12.431784613373523]
Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介する。 CoReQAはGitHubのイシューと4つのプログラミング言語にまたがる176の人気のあるリポジトリからのコメントから構築された。我々は、現在最先端のプロプライエタリおよび長期コンテキストモデルがリポジトリレベルの問題に効果的に取り組むのに苦労していることを示します。
論文参考訳（メタデータ） (2025-01-07T00:24:07Z)
ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文参考訳（メタデータ） (2024-12-16T17:14:35Z)
Repository-level Code Translation Benchmark Targeting Rust [28.25765853736366]
Rustをターゲットにした375のタスクからなる、最初のリポジトリレベルのコード変換ベンチマークを紹介します。このベンチマークを用いて、4つの最先端の大規模言語モデル(LLM)について検討する。その結果,LCMは単純なタスクに比べて,リポジトリレベルでの翻訳性能が著しく低下(41.5%-56.2% Pass@1 drop of GPT-4)していることが判明した。
論文参考訳（メタデータ） (2024-11-21T10:00:52Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。 RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。 Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文参考訳（メタデータ） (2024-04-22T03:52:54Z)
On Using Distribution-Based Compositionality Assessment to Evaluate Compositional Generalisation in Machine Translation [10.840893953881652]
実世界の自然言語タスクにおける合成一般化を評価するためのベンチマークを開発することが重要である。これは、Europarl翻訳コーパスをトレーニングとテストセットに分割し、テストセットが構成的一般化能力を必要とするようにすることで行われる。これは、自然言語合成性ベンチマークを作成するための、完全に自動化された手順である。
論文参考訳（メタデータ） (2023-11-14T15:37:19Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。