Fugu-MT 論文翻訳(概要): Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation

論文の概要: Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2412.05159v1
Date: Fri, 06 Dec 2024 16:22:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:41.189679
Title: Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation
Title（参考訳）: Retrieval-Augmented Generationにおけるタスク特化埋め込みアライメントによる言語間コード変換の強化
Authors: Manish Bhattarai, Minh Vu, Javier E. Santos, Ismael Boureima, Daniel O' Malley,
Abstract要約: 本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
参考スコア（独自算出の注目度）: 1.64043572114825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a novel method to enhance cross-language code translation from Fortran to C++ by integrating task-specific embedding alignment into a Retrieval-Augmented Generation (RAG) framework. Unlike conventional retrieval approaches that utilize generic embeddings agnostic to the downstream task, our strategy aligns the retrieval model directly with the objective of maximizing translation quality, as quantified by the CodeBLEU metric. This alignment ensures that the embeddings are semantically and syntactically meaningful for the specific code translation task. Our methodology involves constructing a dataset of 25,000 Fortran code snippets sourced from Stack-V2 dataset and generating their corresponding C++ translations using the LLaMA 3.1-8B language model. We compute pairwise CodeBLEU scores between the generated translations and ground truth examples to capture fine-grained similarities. These scores serve as supervision signals in a contrastive learning framework, where we optimize the embedding model to retrieve Fortran-C++ pairs that are most beneficial for improving the language model's translation performance. By integrating these CodeBLEU-optimized embeddings into the RAG framework, our approach significantly enhances both retrieval accuracy and code generation quality over methods employing generic embeddings. On the HPC Fortran2C++ dataset, our method elevates the average CodeBLEU score from 0.64 to 0.73, achieving a 14% relative improvement. On the Numerical Recipes dataset, we observe an increase from 0.52 to 0.60, marking a 15% relative improvement. Importantly, these gains are realized without any fine-tuning of the language model, underscoring the efficiency and practicality of our approach.
Abstract（参考訳）: 本稿では、タスク固有の埋め込みアライメントをRetrieval-Augmented Generation (RAG)フレームワークに統合することにより、FortranからC++へのクロス言語コード変換を強化する新しい手法を提案する。ダウンストリームタスクに非依存な汎用的な埋め込みを利用する従来の検索手法とは異なり、我々の戦略は、CodeBLEUメトリックによって定量化されるように、検索モデルを翻訳品質を最大化する目的と直に一致させる。このアライメントは、埋め込みが特定のコード翻訳タスクに対して意味的に、構文的に意味があることを保証する。提案手法では,Stack-V2データセットから生成された25,000のFortranコードスニペットのデータセットを構築し,LLaMA 3.1-8B言語モデルを用いて対応するC++翻訳を生成する。生成した翻訳と基底真理例のペアワイズCodeBLEUスコアを計算し、微細な類似性を捉える。これらのスコアは,言語モデルの翻訳性能を改善する上で最も有用であるFortran-C++ペアを検索するために,埋め込みモデルを最適化する,対照的な学習フレームワークの監視信号として機能する。これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、汎用埋め込みを用いた手法よりも検索精度とコード生成品質を大幅に向上させる。 HPC Fortran2C++データセットでは、平均的なCodeBLEUスコアが0.64から0.73に上昇し、14%の相対的な改善が達成された。数値レシピデータセットでは0.52から0.60に増加し、相対的に15%改善した。重要なことは、これらの利得は言語モデルを微調整することなく実現され、我々のアプローチの効率性と実践性を裏付けるものである。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
NL in the Middle: Code Translation with LLMs and Intermediate Representations [66.41928783565795]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。 LLMを用いたコード翻訳が自然言語(NL)と抽象構文木(AST)による中間表現の恩恵を受けるかどうかを検討する。
論文参考訳（メタデータ） (2025-07-11T14:29:21Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
LLM-Driven Multi-step Translation from C to Rust using Static Analysis [27.122409727034192]
レガシー言語で書かれたソフトウェアをCからRustなどのモダン言語に翻訳することは、メモリ安全性を改善する上で大きなメリットがある。 LLM駆動型C-to-Rustゼロショット変換ツールであるSACTORを2段階の翻訳手法を用いて提案する。 SACTORは、既存の方法と比較して、より自然でRustに準拠した翻訳を生成する。
論文参考訳（メタデータ） (2025-03-16T14:05:26Z)
Fortran2CPP: Automating Fortran-to-C++ Translation using LLMs via Multi-Turn Dialogue and Dual-Agent Integration [10.985254527043429]
私たちのデータセットは、コード翻訳、コンパイル、実行、ユニットテスト、エラー修正を含む、フィードバック決定をキャプチャする1.7kの対話で構成されています。このデータセットを使用して、CodeBLEUスコアの最大3.31倍の改善と、コンパイル成功率の92%向上を実現した。
論文参考訳（メタデータ） (2024-12-27T18:06:25Z)
Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文参考訳（メタデータ） (2024-03-25T21:41:31Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation [30.053409671898933]
Kunは、手動のアノテーションに頼ることなく、大きな言語モデル(LLM)のための高品質な命令チューニングデータセットを作成するための新しいアプローチである。我々は、Wudao、Wanjuan、SkyPileなど、さまざまな情報源から収集された不正なデータを活用して、100万以上の中国語の命令データポイントの実質的なデータセットを生成します。
論文参考訳（メタデータ） (2024-01-12T09:56:57Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Creating a Dataset for High-Performance Computing Code Translation using LLMs: A Bridge Between OpenMP Fortran and C++ [7.872005563259838]
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。事前のコーディング知識を持たないモデルでは、CodeBLEUスコアで$mathbftimes5.1$が上昇した。コーディングに親しみのあるモデルでは、$mathbftimes9.9$-foldが顕著に増加した。
論文参考訳（メタデータ） (2023-07-15T02:35:51Z)
Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。実際には、意味情報はデータから学んだ潜在的な分布によって表現される。ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文参考訳（メタデータ） (2020-07-28T09:17:50Z)
Retrieval-Augmented Generation for Code Summarization via Hybrid GNN [23.445231228940738]
両世界の利益を両立させる新しい検索強化機構を提案する。ソースコードのグローバルなグラフ構造情報を取得する際のグラフニューラルネットワーク(GNN)の制限を軽減するために,新しい注目に基づく動的グラフを提案する。提案手法は,既存の手法をBLEU-4,ROUGE-L,METEORで1.42,2.44,1.29改良し,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-06-09T17:09:29Z)
Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2020-03-18T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。