論文の概要: Advancing Automated In-Isolation Validation in Repository-Level Code Translation
- arxiv url: http://arxiv.org/abs/2511.21878v1
- Date: Wed, 26 Nov 2025 19:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.279433
- Title: Advancing Automated In-Isolation Validation in Repository-Level Code Translation
- Title(参考訳): リポジトリレベルコード翻訳における自動アイソレーション検証の改善
- Authors: Kaiyao Ke, Ali Reza Ibrahimzada, Rangeet Pan, Saurabh Sinha, Reyhaneh Jabbarvand,
- Abstract要約: Repositoryレベルのコード変換は、機能を自動的に保存しながら、プログラミング言語間でリポジトリ全体を移行することを目的としている。
本稿では、文脈認識型分解能とモックベースのインソレーション検証を組み合わせたTRAMを提案する。
TRAMはJava-to-Python翻訳の最先端性能を示し、RAGベースの型分解能と信頼性の高いインアイソレーションバリデーションとの統合の有効性を強調している。
- 参考スコア(独自算出の注目度): 9.753507630426832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Repository-level code translation aims to migrate entire repositories across programming languages while preserving functionality automatically. Despite advancements in repository-level code translation, validating the translations remains challenging. This paper proposes TRAM, which combines context-aware type resolution with mock-based in-isolation validation to achieve high-quality translations between programming languages. Prior to translation, TRAM retrieves API documentation and contextual code information for each variable type in the source language. It then prompts a large language model (LLM) with retrieved contextual information to resolve type mappings across languages with precise semantic interpretations. Using the automatically constructed type mapping, TRAM employs a custom serialization/deserialization workflow that automatically constructs equivalent mock objects in the target language. This enables each method fragment to be validated in isolation, without the high cost of using agents for translation validation, or the heavy manual effort required by existing approaches that rely on language interoperability. TRAM demonstrates state-of-the-art performance in Java-to-Python translation, underscoring the effectiveness of its integration of RAG-based type resolution with reliable in-isolation validation.
- Abstract(参考訳): Repositoryレベルのコード変換は、機能を自動的に保存しながら、プログラミング言語間でリポジトリ全体を移行することを目的としている。
リポジトリレベルのコード翻訳の進歩にもかかわらず、翻訳を検証することは依然として難しい。
本稿では、文脈認識型分解能とモックベースのインソレーション検証を組み合わせることで、プログラミング言語間の高品質な翻訳を実現するTRAMを提案する。
翻訳の前に、TRAMはソース言語の各変数タイプに関するAPIドキュメントとコンテキストコード情報を取得する。
その後、検索された文脈情報によって大きな言語モデル(LLM)を誘導し、正確な意味解釈で言語間の型マッピングを解決する。
自動構築された型マッピングを使用して、TRAMはターゲット言語で等価なモックオブジェクトを自動的に構築するカスタムシリアライズ/デシリアライズワークフローを使用する。
これにより、各メソッドのフラグメントを独立して検証することができ、翻訳バリデーションにエージェントを使用するコストや、言語の相互運用性に依存する既存のアプローチで必要とされる重い手作業が不要になる。
TRAMはJava-to-Python翻訳の最先端性能を示し、RAGベースの型分解能と信頼性の高いインアイソレーションバリデーションとの統合の有効性を強調している。
関連論文リスト
- RepoTransAgent: Multi-Agent LLM Framework for Repository-Aware Code Translation [6.2036957709296665]
RepoTransAgentはリポジトリ対応コード翻訳のための新しいマルチエージェントフレームワークである。
RepoTransAgentを6つの人気のあるオープンソースプロジェクトから数百のJava-C#の翻訳ペアで評価する。
論文 参考訳(メタデータ) (2025-08-25T06:56:22Z) - TranslationCorrect: A Unified Framework for Machine Translation Post-Editing with Predictive Error Assistance [5.306276499628096]
機械翻訳(MT)後編集と研究データ収集は、しばしば非効率な翻訳に頼っている。
本稿ではこれらのタスクを合理化するための統合フレームワークであるTranslationCorrectを紹介する。
NLLBのようなモデルを使ったMT生成、XCOMETやLLM APIのようなモデルを使った自動エラー予測(詳細な推論を提供する)、単一環境における直感的な後編集インターフェースを組み合わせたものだ。
論文 参考訳(メタデータ) (2025-06-23T06:38:49Z) - Automatically Testing Functional Properties of Code Translation Models [3.5757761767474867]
コード翻訳モデルの自動化、機能、プロパティベースのテストのための最初のアプローチを考案する。
トランスパイルされたコードに関するユーザが提供する私たちの一般的な仕様は、さまざまなプロパティをキャプチャします。
また,コード翻訳モデルに対する最初のプロパティ誘導探索手法を開発した。
論文 参考訳(メタデータ) (2023-09-07T11:00:15Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [80.43859162884353]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。