論文の概要: Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2412.05159v1
- Date: Fri, 06 Dec 2024 16:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:51.392142
- Title: Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation
- Title(参考訳): Retrieval-Augmented Generationにおけるタスク特化埋め込みアライメントによる言語間コード変換の強化
- Authors: Manish Bhattarai, Minh Vu, Javier E. Santos, Ismael Boureima, Daniel O' Malley,
- Abstract要約: 本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
- 参考スコア(独自算出の注目度): 1.64043572114825
- License:
- Abstract: We introduce a novel method to enhance cross-language code translation from Fortran to C++ by integrating task-specific embedding alignment into a Retrieval-Augmented Generation (RAG) framework. Unlike conventional retrieval approaches that utilize generic embeddings agnostic to the downstream task, our strategy aligns the retrieval model directly with the objective of maximizing translation quality, as quantified by the CodeBLEU metric. This alignment ensures that the embeddings are semantically and syntactically meaningful for the specific code translation task. Our methodology involves constructing a dataset of 25,000 Fortran code snippets sourced from Stack-V2 dataset and generating their corresponding C++ translations using the LLaMA 3.1-8B language model. We compute pairwise CodeBLEU scores between the generated translations and ground truth examples to capture fine-grained similarities. These scores serve as supervision signals in a contrastive learning framework, where we optimize the embedding model to retrieve Fortran-C++ pairs that are most beneficial for improving the language model's translation performance. By integrating these CodeBLEU-optimized embeddings into the RAG framework, our approach significantly enhances both retrieval accuracy and code generation quality over methods employing generic embeddings. On the HPC Fortran2C++ dataset, our method elevates the average CodeBLEU score from 0.64 to 0.73, achieving a 14% relative improvement. On the Numerical Recipes dataset, we observe an increase from 0.52 to 0.60, marking a 15% relative improvement. Importantly, these gains are realized without any fine-tuning of the language model, underscoring the efficiency and practicality of our approach.
- Abstract(参考訳): 本稿では、タスク固有の埋め込みアライメントをRetrieval-Augmented Generation (RAG)フレームワークに統合することにより、FortranからC++へのクロス言語コード変換を強化する新しい手法を提案する。
ダウンストリームタスクに非依存な汎用的な埋め込みを利用する従来の検索手法とは異なり、我々の戦略は、CodeBLEUメトリックによって定量化されるように、検索モデルを翻訳品質を最大化する目的と直に一致させる。
このアライメントは、埋め込みが特定のコード翻訳タスクに対して意味的に、構文的に意味があることを保証する。
提案手法では,Stack-V2データセットから生成された25,000のFortranコードスニペットのデータセットを構築し,LLaMA 3.1-8B言語モデルを用いて対応するC++翻訳を生成する。
生成した翻訳と基底真理例のペアワイズCodeBLEUスコアを計算し、微細な類似性を捉える。
これらのスコアは,言語モデルの翻訳性能を改善する上で最も有用であるFortran-C++ペアを検索するために,埋め込みモデルを最適化する,対照的な学習フレームワークの監視信号として機能する。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、汎用埋め込みを用いた手法よりも検索精度とコード生成品質を大幅に向上させる。
HPC Fortran2C++データセットでは、平均的なCodeBLEUスコアが0.64から0.73に上昇し、14%の相対的な改善が達成された。
数値レシピデータセットでは0.52から0.60に増加し、相対的に15%改善した。
重要なことは、これらの利得は言語モデルを微調整することなく実現され、我々のアプローチの効率性と実践性を裏付けるものである。
関連論文リスト
- Fortran2CPP: Automating Fortran-to-C++ Translation using LLMs via Multi-Turn Dialogue and Dual-Agent Integration [10.985254527043429]
私たちのデータセットは、コード翻訳、コンパイル、実行、ユニットテスト、エラー修正を含む、フィードバック決定をキャプチャする1.7kの対話で構成されています。
このデータセットを使用して、CodeBLEUスコアの最大3.31倍の改善と、コンパイル成功率の92%向上を実現した。
論文 参考訳(メタデータ) (2024-12-27T18:06:25Z) - CodeRosetta: Pushing the Boundaries of Unsupervised Code Translation for Parallel Programming [15.391781573025787]
我々は,プログラミング言語とHPC拡張間の翻訳に特化して設計されたエンコーダ・デコーダモデルであるCodeRosettaを紹介する。
CodeRosettaはC++から並列C++翻訳タスクで評価される。
以上の結果から,CodeRosettaはC++の最先端のベースラインよりも翻訳に優れていた。
論文 参考訳(メタデータ) (2024-10-27T17:34:07Z) - Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。
この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Creating a Dataset for High-Performance Computing Code Translation using
LLMs: A Bridge Between OpenMP Fortran and C++ [7.872005563259838]
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。
事前のコーディング知識を持たないモデルでは、CodeBLEUスコアで$mathbftimes5.1$が上昇した。
コーディングに親しみのあるモデルでは、$mathbftimes9.9$-foldが顕著に増加した。
論文 参考訳(メタデータ) (2023-07-15T02:35:51Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。
実際には、意味情報はデータから学んだ潜在的な分布によって表現される。
ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文 参考訳(メタデータ) (2020-07-28T09:17:50Z) - Retrieval-Augmented Generation for Code Summarization via Hybrid GNN [23.445231228940738]
両世界の利益を両立させる新しい検索強化機構を提案する。
ソースコードのグローバルなグラフ構造情報を取得する際のグラフニューラルネットワーク(GNN)の制限を軽減するために,新しい注目に基づく動的グラフを提案する。
提案手法は,既存の手法をBLEU-4,ROUGE-L,METEORで1.42,2.44,1.29改良し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-06-09T17:09:29Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。