Fugu-MT 論文翻訳(概要): I Can't Share Code, but I need Translation -- An Empirical Study on Code Translation through Federated LLM

論文の概要: I Can't Share Code, but I need Translation -- An Empirical Study on Code Translation through Federated LLM

arxiv url: http://arxiv.org/abs/2501.05724v1
Date: Fri, 10 Jan 2025 05:43:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.143723
Title: I Can't Share Code, but I need Translation -- An Empirical Study on Code Translation through Federated LLM
Title（参考訳）: コードを共有することはできないが、翻訳が必要だ -- フェデレーションLLMによるコード翻訳に関する実証的研究
Authors: Jahnavi Kumar, Venkata Lakshmana Sasaank Janapati, Mokshith Reddy Tanguturi, Sridhar Chimalakonda,
Abstract要約: 本研究は、参加者が効率の良いコード翻訳のためのFedLLMを共同開発できることを実証する。この結果から,FedLLMはコード翻訳に協調的なアプローチを提供し,将来的な研究の方向性となる可能性が示唆された。
参考スコア（独自算出の注目度）: 3.9373541926236766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Owing to the rapid evolution of technologies and project requirements, organizations need to upgrade the code base in their software projects to a new version of the programming language or even translating to an entirely new one. However, code translation is resource-intensive and requires expertise in both the source and target languages. While researchers have made progress in automating translations between legacy and modern languages, recent work has increasingly turned to pre-trained Large Language Models (LLMs) to translate efficiently. Given the proprietary nature of code, organizations prefer fine-tuning LLMs locally rather than relying on external APIs. This is one of the first empirical studies that proposes a Federated LLM-based approach for code translation. The proposed approach enables clients to jointly train a code translator without sharing sensitive data. This study demonstrates that participants can collaboratively develop a FedLLM for efficient code translation (particularly C\# to Java and vice-versa) with superior results (more than 40\% improvement in CodeLLaMA's CodeBLEU score) compared to individual client models. Our findings indicate that FedLLM offers a collaborative approach to code translation and could serve as a promising direction for future research in this field.
Abstract（参考訳）: 技術とプロジェクトの要件が急速に進化しているため、企業はソフトウェアプロジェクトのコードベースを新しいバージョンのプログラミング言語にアップグレードするか、あるいはまったく新しいものに翻訳する必要がある。しかし、コード翻訳はリソース集約であり、ソース言語とターゲット言語の両方で専門知識を必要とする。研究者はレガシ言語とモダン言語間の翻訳の自動化を進めてきたが、最近の研究はより効率的に翻訳できるように事前訓練されたLarge Language Models (LLMs) へと変化しつつある。コードのプロプライエタリな性質を考えると、組織は外部APIに頼るよりも、ローカルで微調整のLLMを好む。これは、コード翻訳のためのフェデレーションLLMベースのアプローチを提案する最初の実証研究の1つである。提案手法により、クライアントは機密データを共有せずにコードトランスレータを共同で訓練できる。本研究では,効率のよいコード翻訳のためのFedLLMを,個々のクライアントモデルと比較して優れた結果(CodeLLaMAのCodeBLEUスコアを40%以上改善した)で共同開発できることを実証する。この結果から,FedLLMはコード翻訳に協調的なアプローチを提供し,将来的な研究の方向性となる可能性が示唆された。

関連論文リスト

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
NL in the Middle: Code Translation with LLMs and Intermediate Representations [66.41928783565795]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。 LLMを用いたコード翻訳が自然言語(NL)と抽象構文木(AST)による中間表現の恩恵を受けるかどうかを検討する。
論文参考訳（メタデータ） (2025-07-11T14:29:21Z)
ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [57.604506522287814]
既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。機能的セマンティクスや構文構造,変数依存性といった実行可能性表現を活用するために,ExeCoderを提案する。 ExeCoderは、既存のオープンソースコードLLMを10.88%以上、38.78%以上、27.44%以上、42.97%以上という、2つのメトリクスで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-30T16:18:52Z)
Specification-Driven Code Translation Powered by Large Language Models: How Far Are We? [8.534857249221844]
コード翻訳の中間表現としてNL-specificationを用いる。以上の結果から,NL特異化だけでは性能改善には至らないことが明らかとなった。コード翻訳の性能解析に加えて,翻訳コードの品質についても検討する。
論文参考訳（メタデータ） (2024-12-05T20:10:21Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? [4.616570111453259]
大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、コード翻訳には苦労する。コード翻訳タスクにおけるLLMの能力と能力を利用するための大規模な実証的研究を行う。提案手法は,(1)ソースと対象言語間の中間言語を選択する中間翻訳と,(2)自己生成並列データ上でLPMを微調整する自己学習である。
論文参考訳（メタデータ） (2024-10-13T12:20:12Z)
Towards Translating Real-World Code with LLMs: A Study of Translating to Rust [13.743967357458287]
大規模言語モデル(LLM)は、ほとんどのプログラミング言語でコードを記述する能力のため、コード翻訳において有望であることを示す。実世界のオープンソースプロジェクトから抽出したコードについて検討する。 FLOURINEは、差分ファジィを使用して、Rust翻訳が元のソースプログラムと同等のI/Oかどうかをチェックする、エンドツーエンドのコード変換ツールである。
論文参考訳（メタデータ） (2024-05-19T10:54:03Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation [8.979765541978292]
CodeTransOceanは、コード翻訳のための最大のプログラミング言語をサポートする大規模な包括的なデータセットである。 CodeTransOceanは3つの新しい多言語データセット、すなわち、複数のポピュラープログラミング言語間の翻訳をサポートするMultilingualTrans、ニッチプログラミング言語とポピュラー言語間の翻訳を行うNicheTrans、大言語モデル(LLM)による翻訳コードの実行可能性を評価するLLMTransで構成されている。
論文参考訳（メタデータ） (2023-10-08T00:16:18Z)
Lost in Translation: A Study of Bugs Introduced by Large Language Models while Translating Code [5.915447908295047]
コード翻訳における一般LLMとコードLLMの能力について,大規模な実証的研究を行った。私たちの研究は、3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳に関するものです。 LLMの正しい翻訳は2.1%から47.3%であることがわかった。
論文参考訳（メタデータ） (2023-08-06T13:33:13Z)
Summarize and Generate to Back-translate: Unsupervised Translation of Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。コード要約と生成による逆翻訳を提案する。提案手法は最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2022-05-23T08:20:41Z)
Using Document Similarity Methods to create Parallel Datasets for Code Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文参考訳（メタデータ） (2021-10-11T17:07:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。