論文の概要: Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation
- arxiv url: http://arxiv.org/abs/2501.16050v1
- Date: Mon, 27 Jan 2025 13:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:59.761191
- Title: Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation
- Title(参考訳): Skeleton-Guided-Translation: コードリポジトリ翻訳のためのベンチマークフレームワーク
- Authors: Xing Zhang, Jiaheng Wen, Fangkai Yang, Pu Zhao, Yu Kang, Junhao Wang, Maoquan Wang, Yufan Huang, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
- Abstract要約: Skeleton-Guided-Translationは、リポジトリレベルのJavaからC#へのコード変換のためのフレームワークで、きめ細かい品質評価がある。
本稿では,高品質なオープンソースJavaレポジトリとその対応するC#スケルトンベンチマークであるTransREPO-BENCHを紹介する。
- 参考スコア(独自算出の注目度): 37.25839260805938
- License:
- Abstract: The advancement of large language models has intensified the need to modernize enterprise applications and migrate legacy systems to secure, versatile languages. However, existing code translation benchmarks primarily focus on individual functions, overlooking the complexities involved in translating entire repositories, such as maintaining inter-module coherence and managing dependencies. While some recent repository-level translation benchmarks attempt to address these challenges, they still face limitations, including poor maintainability and overly coarse evaluation granularity, which make them less developer-friendly. We introduce Skeleton-Guided-Translation, a framework for repository-level Java to C# code translation with fine-grained quality evaluation. It uses a two-step process: first translating the repository's structural "skeletons", then translating the full repository guided by these skeletons. Building on this, we present TRANSREPO-BENCH, a benchmark of high quality open-source Java repositories and their corresponding C# skeletons, including matching unit tests and build configurations. Our unit tests are fixed and can be applied across multiple or incremental translations without manual adjustments, enhancing automation and scalability in evaluations. Additionally, we develop fine-grained evaluation metrics that assess translation quality at the individual test case level, addressing traditional binary metrics' inability to distinguish when build failures cause all tests to fail. Evaluations using TRANSREPO-BENCH highlight key challenges and advance more accurate repository level code translation.
- Abstract(参考訳): 大規模言語モデルの進歩により、エンタープライズアプリケーションを近代化し、レガシーシステムをセキュアで汎用的な言語に移行する必要性が高まっている。
しかし、既存のコード翻訳ベンチマークは主に個々の関数に焦点を当てており、モジュール間の一貫性の維持や依存関係の管理など、リポジトリ全体の翻訳に関わる複雑さを見下ろしている。
最近のリポジトリレベルの翻訳ベンチマークではこれらの課題に対処しようと試みているが、メンテナンス性の貧弱さや過剰な評価の粒度など、制限に直面している。
我々は、リポジトリレベルのJavaからC#へのコード変換のためのフレームワークであるSkeleton-Guided-Translationを紹介します。
まず、リポジトリの構造的“骨格”を翻訳し、次に、これらのスケルトンによってガイドされた完全なリポジトリを翻訳する。
これに基づいて、高品質なオープンソースJavaリポジトリとそれに対応するC#スケルトンをベンチマークしたTransREPO-BENCHを紹介します。
ユニットテストは修正され、手動で調整することなく、複数のあるいはインクリメンタルな翻訳に適用できます。
さらに、個々のテストケースレベルで翻訳品質を評価するためのきめ細かい評価指標を開発し、従来のバイナリメトリクスがビルド失敗によってすべてのテストがフェールした場合に区別できない問題に対処します。
TransREPO-BENCHによる評価は、重要な課題を浮き彫りにして、より正確なリポジトリレベルのコード変換を推進している。
関連論文リスト
- CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering [12.431784613373523]
Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介する。
CoReQAはGitHubのイシューと4つのプログラミング言語にまたがる176の人気のあるリポジトリからのコメントから構築された。
我々は、現在最先端のプロプライエタリおよび長期コンテキストモデルがリポジトリレベルの問題に効果的に取り組むのに苦労していることを示します。
論文 参考訳(メタデータ) (2025-01-07T00:24:07Z) - Repository-level Code Translation Benchmark Targeting Rust [28.25765853736366]
Rustをターゲットにした375のタスクからなる、最初のリポジトリレベルのコード変換ベンチマークを紹介します。
このベンチマークを用いて、4つの最先端の大規模言語モデル(LLM)について検討する。
その結果,LCMは単純なタスクに比べて,リポジトリレベルでの翻訳性能が著しく低下(41.5%-56.2% Pass@1 drop of GPT-4)していることが判明した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - On Using Distribution-Based Compositionality Assessment to Evaluate
Compositional Generalisation in Machine Translation [10.840893953881652]
実世界の自然言語タスクにおける合成一般化を評価するためのベンチマークを開発することが重要である。
これは、Europarl翻訳コーパスをトレーニングとテストセットに分割し、テストセットが構成的一般化能力を必要とするようにすることで行われる。
これは、自然言語合成性ベンチマークを作成するための、完全に自動化された手順である。
論文 参考訳(メタデータ) (2023-11-14T15:37:19Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。