論文の概要: Beyond Code Pairs: Dialogue-Based Data Generation for LLM Code Translation
- arxiv url: http://arxiv.org/abs/2512.03086v1
- Date: Sat, 29 Nov 2025 05:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:54.950416
- Title: Beyond Code Pairs: Dialogue-Based Data Generation for LLM Code Translation
- Title(参考訳): コードペアを超えて: LLMコード翻訳のための対話ベースのデータ生成
- Authors: Le Chen, Nuo Xu, Winson Chen, Bin Lei, Pei-Hung Lin, Dunzhi Zhou, Rajeev Thakur, Caiwen Ding, Ali Jannesari, Chunhua Liao,
- Abstract要約: デュアルLLMクセサ-r設計を特徴とする自動データセット生成パイプラインを提案する。
このデータにより、7Bのオープンウェイトモデルでは、コンパイル成功などの主要なメトリクスにおいて、より大きなプロプライエタリなシステムを大幅に上回る結果が得られます。
- 参考スコア(独自算出の注目度): 22.50538010082899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in code translation, yet their performance deteriorates in low-resource programming domains such as Fortran and emerging frameworks like CUDA, where high-quality parallel data are scarce. We present an automated dataset generation pipeline featuring a dual-LLM Questioner-Solver design that incorporates external knowledge from compilers and runtime feedback. Beyond traditional source-target code pair datasets, our approach additionally generates (1) verified translations with unit tests for assessing functional consistency, and (2) multi-turn dialogues that capture the reasoning process behind translation refinement. Applied to Fortran -> C++ and C++ -> CUDA, the pipeline yields 3.64k and 3.93k dialogues, respectively. Fine-tuning on this data yields dramatic improvements in functional correctness, boosting unit test success rates by over 56% on the challenging C++-to-CUDA task. We show this data enables a 7B open-weight model to significantly outperform larger proprietary systems on key metrics like compilation success.
- Abstract(参考訳): 大きな言語モデル(LLM)はコード翻訳において顕著な能力を示しているが、Fortranのような低リソースのプログラミングドメインや、高品質の並列データが不足しているCUDAのような新興フレームワークではパフォーマンスが低下している。
本稿では,コンパイラからの外部知識と実行時のフィードバックを取り入れた,デュアルLLMクセサー・ソルバー設計を特徴とする自動データセット生成パイプラインを提案する。
従来のソース・ターゲットのコード・ペア・データセット以外にも,(1)機能整合性を評価するための単体テストによる検証済みの翻訳,(2)翻訳洗練の背景にある推論過程を捉えるマルチターン・ダイアログも生成する。
Fortran -> C++ -> C++ -> CUDAに適用されるパイプラインは、それぞれ3.64kと3.93kの対話を生成する。
このデータの微調整は、機能的正確性を大幅に改善し、困難なC++-to-CUDAタスクにおいて、単体テストの成功率を56%以上向上させる。
このデータにより、7Bのオープンウェイトモデルでは、コンパイル成功などの主要なメトリクスにおいて、より大きなプロプライエタリなシステムを大幅に上回る結果が得られます。
関連論文リスト
- BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。
本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-11T23:35:54Z) - QiMeng-MuPa: Mutual-Supervised Learning for Sequential-to-Parallel Code Translation [27.60208311262231]
データ不足は、機械学習ベースのシーケンシャル-並列コード変換において大きな課題となる。
textbf-to-textbfParallelコード翻訳のための新しいtextbfMutual-Supervised Learning フレームワーク textbfQiMeng-MuPa を提案する。
論文 参考訳(メタデータ) (2025-06-11T13:50:29Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Fortran2CPP: Automating Fortran-to-C++ Translation using LLMs via Multi-Turn Dialogue and Dual-Agent Integration [10.985254527043429]
私たちのデータセットは、コード翻訳、コンパイル、実行、ユニットテスト、エラー修正を含む、フィードバック決定をキャプチャする1.7kの対話で構成されています。
このデータセットを使用して、CodeBLEUスコアの最大3.31倍の改善と、コンパイル成功率の92%向上を実現した。
論文 参考訳(メタデータ) (2024-12-27T18:06:25Z) - Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T16:22:32Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。