論文の概要: Bootstrapping Code Translation with Weighted Multilanguage Exploration
- arxiv url: http://arxiv.org/abs/2601.03512v1
- Date: Wed, 07 Jan 2026 01:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.11365
- Title: Bootstrapping Code Translation with Weighted Multilanguage Exploration
- Title(参考訳): 重み付き多言語探索によるブートストラップコード翻訳
- Authors: Yuhan Wu, Huan Zhang, Wei Cheng, Chen Shen, Jingyue Yang, Wei Hu,
- Abstract要約: 本稿では,言語間のコード翻訳のためのブートストラップ手法であるBootTransを提案する。
その鍵となる考え方は、テストスイートの機能的不変性と言語間ポータビリティを活用することである。
本手法では, シードプールと探索プールを備えたデュアルプールアーキテクチャを導入し, トレーニングデータを段階的に拡張する。
- 参考スコア(独自算出の注目度): 22.90890448332095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code translation across multiple programming languages is essential yet challenging due to two vital obstacles: scarcity of parallel data paired with executable test oracles, and optimization imbalance when handling diverse language pairs. We propose BootTrans, a bootstrapping method that resolves both obstacles. Its key idea is to leverage the functional invariance and cross-lingual portability of test suites, adapting abundant pivot-language unit tests to serve as universal verification oracles for multilingual RL training. Our method introduces a dual-pool architecture with seed and exploration pools to progressively expand training data via execution-guided experience collection. Furthermore, we design a language-aware weighting mechanism that dynamically prioritizes harder translation directions based on relative performance across sibling languages, mitigating optimization imbalance. Extensive experiments on the HumanEval-X and TransCoder-Test benchmarks demonstrate substantial improvements over baseline LLMs across all translation directions, with ablations validating the effectiveness of both bootstrapping and weighting components.
- Abstract(参考訳): 複数のプログラミング言語にまたがるコード翻訳は、2つの重要な障害がある: 実行可能テストのオーラクルと組み合わせた並列データの不足、多種多様な言語ペアを扱う際の最適化の不均衡。
両障害を解消するブートストラップ法であるBootTransを提案する。
その鍵となる考え方は、テストスイートの機能的不変性と言語間ポータビリティを活用することであり、多言語RLトレーニングの普遍的な検証オラクルとして機能するために、豊富なピボット言語単位テストを適用することである。
本手法では,シードと探索プールを備えたデュアルプールアーキテクチャを導入し,実行誘導体験収集によるトレーニングデータを段階的に拡張する。
さらに、兄弟言語間の相対的な性能に基づいて、より難しい翻訳方向を動的に優先順位付けし、最適化の不均衡を緩和する言語対応重み付け機構を設計する。
HumanEval-X と TransCoder-Test ベンチマークの大規模な実験は、すべての翻訳方向のベースライン LLM よりも大幅に改善され、ブートストラップと重み付けの両方の有効性が検証された。
関連論文リスト
- Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping
the Linguistic Blood Bank [13.630306305322094]
プレトレーニング言語の選択は,BERTモデルに対する下流言語間移動に影響を及ぼすことを示す。
本研究では,データサイズを削減し,ドナーとして下流のパフォーマンスを向上させる事前学習言語を分類するために,バランスの取れたデータ条件下でゼロショット性能を検査する。
論文 参考訳(メタデータ) (2022-05-09T07:32:50Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。