Fugu-MT 論文翻訳(概要): Attention, Compilation, and Solver-based Symbolic Analysis are All You Need

論文の概要: Attention, Compilation, and Solver-based Symbolic Analysis are All You Need

arxiv url: http://arxiv.org/abs/2306.06755v1
Date: Sun, 11 Jun 2023 19:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 16:58:20.581681
Title: Attention, Compilation, and Solver-based Symbolic Analysis are All You Need
Title（参考訳）: 注意、コンパイル、そしてソルバーに基づくシンボリック分析は必要なすべて
Authors: Prithwish Jana, Piyush Jha, Haoyang Ju, Gautham Kishore, Aryan Mahajan and Vijay Ganesh
Abstract要約: 本稿では,大規模言語モデル (LLM) に基づく Java-to-Python (J2P) と Python-to-Java (P2J) のバック・ツー・バックコード変換手法と,CoTran と呼ばれる関連ツールを提案する。本手法は,LLMのアテンション機構,コンパイル,シンボリックな実行ベーステスト生成を利用して,入力プログラムと出力プログラムの等価性テストを行う。
参考スコア（独自算出の注目度）: 8.967870619902211
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we present a Java-to-Python (J2P) and Python-to-Java (P2J) back-to-back code translation method, and associated tool called CoTran, based on large language models (LLMs). Our method leverages the attention mechanism of LLMs, compilation, and symbolic execution-based test generation for equivalence testing between the input and output programs. More precisely, we modify the typical LLM training loop to incorporate compiler and symbolic execution loss. Via extensive experiments comparing CoTran with 10 other transpilers and LLM-based translation tools over a benchmark of more than 57,000 Java-Python equivalent pairs, we show that CoTran outperforms them on relevant metrics such as compilation and runtime equivalence accuracy. For example, our tool gets 97.43% compilation accuracy and 49.66% runtime equivalence accuracy for J2P translation, whereas the nearest competing tool only gets 96.44% and 6.8% respectively.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)に基づくJava-to-Python (J2P) とPython-to-Java (P2J) のバック・ツー・バックコード変換手法,およびCoTranと呼ばれる関連ツールを提案する。提案手法は,LLMの注意機構,コンパイル,シンボリックな実行ベーステスト生成を利用して,入力プログラムと出力プログラムの等価性テストを行う。より正確には、コンパイラとシンボリック実行損失を組み込むために、典型的なLLMトレーニングループを変更する。 CoTranと他の10のトランスパイラとLLMベースの翻訳ツールを57,000以上のJava-Python等価ペアのベンチマークで比較した広範な実験により、CoTranはコンパイルや実行時同値精度などの関連する指標において、それらよりも優れていることを示した。例えば、このツールはコンパイル精度97.43%、実行時等価精度49.66%、最も近いツールは96.44%と6.8%である。

関連論文リスト

Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
NL in the Middle: Code Translation with LLMs and Intermediate Representations [66.41928783565795]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。 LLMを用いたコード翻訳が自然言語(NL)と抽象構文木(AST)による中間表現の恩恵を受けるかどうかを検討する。
論文参考訳（メタデータ） (2025-07-11T14:29:21Z)
Enhancing LLMs in Long Code Translation through Instrumentation and Program State Alignment [0.0]
コード翻訳は、機能を保ちながらプログラミング言語間でコードを変換することを目的としている。大規模言語モデル(LLM)の最近の進歩はコード翻訳を改善しているが、課題は残る。
論文参考訳（メタデータ） (2025-04-02T13:55:29Z)
ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [37.34003516231121]
コード翻訳は、ソフトウェア開発とメンテナンスプロセスにおいて重要な活動です。既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。コード翻訳に特化したLLMであるExeCoderを提案する。
論文参考訳（メタデータ） (2025-01-30T16:18:52Z)
Specification-Driven Code Translation Powered by Large Language Models: How Far Are We? [8.534857249221844]
コード翻訳の中間表現としてNL-specificationを用いる。以上の結果から,NL特異化だけでは性能改善には至らないことが明らかとなった。コード翻訳の性能解析に加えて,翻訳コードの品質についても検討する。
論文参考訳（メタデータ） (2024-12-05T20:10:21Z)
CodeRosetta: Pushing the Boundaries of Unsupervised Code Translation for Parallel Programming [15.391781573025787]
我々は,プログラミング言語とHPC拡張間の翻訳に特化して設計されたエンコーダ・デコーダモデルであるCodeRosettaを紹介する。 CodeRosettaはC++から並列C++翻訳タスクで評価される。以上の結果から,CodeRosettaはC++の最先端のベースラインよりも翻訳に優れていた。
論文参考訳（メタデータ） (2024-10-27T17:34:07Z)
Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? [4.616570111453259]
大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、コード翻訳には苦労する。コード翻訳タスクにおけるLLMの能力と能力を利用するための大規模な実証的研究を行う。提案手法は,(1)ソースと対象言語間の中間言語を選択する中間翻訳と,(2)自己生成並列データ上でLPMを微調整する自己学習である。
論文参考訳（メタデータ） (2024-10-13T12:20:12Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
Towards Translating Real-World Code with LLMs: A Study of Translating to Rust [13.743967357458287]
大規模言語モデル(LLM)は、ほとんどのプログラミング言語でコードを記述する能力のため、コード翻訳において有望であることを示す。実世界のオープンソースプロジェクトから抽出したコードについて検討する。 FLOURINEは、差分ファジィを使用して、Rust翻訳が元のソースプログラムと同等のI/Oかどうかをチェックする、エンドツーエンドのコード変換ツールである。
論文参考訳（メタデータ） (2024-05-19T10:54:03Z)
Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文参考訳（メタデータ） (2024-03-25T21:41:31Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
Lost in Translation: A Study of Bugs Introduced by Large Language Models while Translating Code [5.915447908295047]
コード翻訳における一般LLMとコードLLMの能力について,大規模な実証的研究を行った。私たちの研究は、3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳に関するものです。 LLMの正しい翻訳は2.1%から47.3%であることがわかった。
論文参考訳（メタデータ） (2023-08-06T13:33:13Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。