論文の概要: Attention, Compilation, and Solver-based Symbolic Analysis are All You
Need
- arxiv url: http://arxiv.org/abs/2306.06755v2
- Date: Mon, 23 Oct 2023 03:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:40:48.652242
- Title: Attention, Compilation, and Solver-based Symbolic Analysis are All You
Need
- Title(参考訳): 注意、コンパイル、そしてソルバーに基づくシンボリック分析は必要なすべて
- Authors: Prithwish Jana, Piyush Jha, Haoyang Ju, Gautham Kishore, Aryan Mahajan
and Vijay Ganesh
- Abstract要約: 本稿では,大規模言語モデル (LLM) に基づく Java-to-Python (J2P) と Python-to-Java (P2J) のバック・ツー・バックコード変換手法と,CoTran という関連ツールを提案する。
本手法は,LLMのアテンション機構,コンパイル,シンボリックな実行ベーステスト生成を利用して,入力プログラムと出力プログラムの等価性テストを行う。
- 参考スコア(独自算出の注目度): 7.125642663737713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a Java-to-Python (J2P) and Python-to-Java (P2J)
back-to-back code translation method, and an associated tool called CoTran,
based on large language models (LLMs). Our method leverages the attention
mechanism of LLMs, compilation, and symbolic execution-based test generation
for equivalence testing between the input and output programs. More precisely,
we modify the typical LLM training loop to incorporate compiler and symbolic
execution loss. Via extensive experiments comparing CoTran with 12 other
transpilers and LLM-based translation tools over a benchmark of more than
57,000 Java-Python equivalent pairs, we show that CoTran outperforms them on
relevant metrics such as compilation and runtime equivalence accuracy. For
example, our tool gets 97.43% compilation accuracy and 49.66% runtime
equivalence accuracy for J2P translation, whereas the nearest competing tool
only gets 92.84% and 40.95% respectively.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に基づくJava-to-Python (J2P) とPython-to-Java (P2J) のバックエンドコード変換手法と,CoTranと呼ばれる関連ツールを提案する。
提案手法は,LLMの注意機構,コンパイル,シンボリックな実行ベーステスト生成を利用して,入力プログラムと出力プログラムの等価性テストを行う。
より正確には、コンパイラとシンボリック実行損失を組み込むために、典型的なLLMトレーニングループを変更する。
CoTranと他の12のトランスパイラとLLMベースの翻訳ツールを57,000以上のJava-Python等価ペアのベンチマークで比較した広範な実験により、CoTranはコンパイルや実行時同値精度などの関連する指標において、それらよりも優れていることを示した。
例えば、このツールはコンパイル精度97.43%、実行時等価精度49.66%、最も近いツールは92.84%、40.95%である。
関連論文リスト
- CodeRosetta: Pushing the Boundaries of Unsupervised Code Translation for Parallel Programming [15.391781573025787]
我々は,プログラミング言語とHPC拡張間の翻訳に特化して設計されたエンコーダ・デコーダモデルであるCodeRosettaを紹介する。
CodeRosettaはC++から並列C++翻訳タスクで評価される。
以上の結果から,CodeRosettaはC++の最先端のベースラインよりも翻訳に優れていた。
論文 参考訳(メタデータ) (2024-10-27T17:34:07Z) - Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? [4.616570111453259]
大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、コード翻訳には苦労する。
コード翻訳タスクにおけるLLMの能力と能力を利用するための大規模な実証的研究を行う。
提案手法は,(1)ソースと対象言語間の中間言語を選択する中間翻訳と,(2)自己生成並列データ上でLPMを微調整する自己学習である。
論文 参考訳(メタデータ) (2024-10-13T12:20:12Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Towards Translating Real-World Code with LLMs: A Study of Translating to Rust [13.743967357458287]
大規模言語モデル(LLM)は、ほとんどのプログラミング言語でコードを記述する能力のため、コード翻訳において有望であることを示す。
実世界のオープンソースプロジェクトから抽出したコードについて検討する。
FLOURINEは、差分ファジィを使用して、Rust翻訳が元のソースプログラムと同等のI/Oかどうかをチェックする、エンドツーエンドのコード変換ツールである。
論文 参考訳(メタデータ) (2024-05-19T10:54:03Z) - Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。
この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Lost in Translation: A Study of Bugs Introduced by Large Language Models
while Translating Code [5.915447908295047]
コード翻訳における一般LLMとコードLLMの能力について,大規模な実証的研究を行った。
私たちの研究は、3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳に関するものです。
LLMの正しい翻訳は2.1%から47.3%であることがわかった。
論文 参考訳(メタデータ) (2023-08-06T13:33:13Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。