論文の概要: Guess & Sketch: Language Model Guided Transpilation
- arxiv url: http://arxiv.org/abs/2309.14396v2
- Date: Fri, 15 Mar 2024 17:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 03:41:25.597283
- Title: Guess & Sketch: Language Model Guided Transpilation
- Title(参考訳): Guess & Sketch: 言語モデルによるトランスパイレーション
- Authors: Celine Lee, Abdulrahman Mahmoud, Michal Kurek, Simone Campanoni, David Brooks, Stephen Chong, Gu-Yeon Wei, Alexander M. Rush,
- Abstract要約: 学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
- 参考スコア(独自算出の注目度): 59.02147255276078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining legacy software requires many software and systems engineering hours. Assembly code programs, which demand low-level control over the computer machine state and have no variable names, are particularly difficult for humans to analyze. Existing conventional program translators guarantee correctness, but are hand-engineered for the source and target programming languages in question. Learned transpilation, i.e. automatic translation of code, offers an alternative to manual re-writing and engineering efforts. Automated symbolic program translation approaches guarantee correctness but struggle to scale to longer programs due to the exponentially large search space. Their rigid rule-based systems also limit their expressivity, so they can only reason about a reduced space of programs. Probabilistic neural language models (LMs) produce plausible outputs for every input, but do so at the cost of guaranteed correctness. In this work, we leverage the strengths of LMs and symbolic solvers in a neurosymbolic approach to learned transpilation for assembly code. Assembly code is an appropriate setting for a neurosymbolic approach, since assembly code can be divided into shorter non-branching basic blocks amenable to the use of symbolic methods. Guess & Sketch extracts alignment and confidence information from features of the LM then passes it to a symbolic solver to resolve semantic equivalence of the transpilation input and output. We test Guess & Sketch on three different test sets of assembly transpilation tasks, varying in difficulty, and show that it successfully transpiles 57.6% more examples than GPT-4 and 39.6% more examples than an engineered transpiler. We also share a training and evaluation dataset for this task.
- Abstract(参考訳): レガシーソフトウェアを維持するには、多くのソフトウェアやシステムエンジニアリング時間が必要です。
アセンブリコードプログラムは、コンピュータマシンの状態に対して低レベルな制御を要求し、変数名を持たないが、人間が分析するのは特に困難である。
既存のプログラムトランスレータは、正確性を保証するが、問題のソースおよびターゲットプログラミング言語のために手作業で設計されている。
学習されたトランスパイレーション、すなわちコードの自動翻訳は、手作業による書き直しやエンジニアリングの取り組みに代わるものである。
自動記号型プログラム翻訳は、精度を保証するが、指数関数的に大きい検索空間のため、より長いプログラムにスケールするのに苦労する。
彼らの厳密な規則に基づくシステムは、その表現性も制限するので、プログラムの空間を減らすことしか説明できない。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
本研究は,組立符号に対する学習的トランスパイル化のためのニューロシンボリックアプローチにおいて,LMとシンボリックソルバの強みを利用するものである。
アセンブリコードは、シンボリックメソッドの使用により考慮可能な、より短い非分岐的基本ブロックに分割することができるため、アセンブリコードは、ニューロシンボリックアプローチに適した設定である。
Guess & Sketchは、LMの特徴からアライメントと信頼性情報を抽出し、それをシンボルソルバに渡して、トランスパイレーション入力と出力のセマンティック等価性を解決する。
我々は、Gues & Sketchを3つの異なる組立トランスパイラの試験セットでテストし、GPT-4よりも57.6%、エンジニアリングされたトランスパイラよりも39.6%のサンプルをトランスパイラにトランスパイラできることを示した。
このタスクのトレーニングと評価のデータセットも共有しています。
関連論文リスト
- ALTA: Compiler-Based Analysis of Transformers [56.76482035060707]
本稿では,ALTAプログラムをトランスフォーマー重みにマッピングできるALTAとコンパイラを提案する。
ALTA は Weiss らによって提案された RASP にインスパイアされている。
コンポジション一般化タスクのSCANベンチマークの解法と同様に,トランスフォーマーがパリティと加算を計算するための長さ不変のアルゴリズムをどう表現できるかを示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:49Z) - Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - Exploring and Unleashing the Power of Large Language Models in Automated Code Translation [40.25727029618665]
本稿では,自動翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討する。
UniTrans は、様々な LLM に適用可能な統一コード翻訳フレームワークである。
最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-23T00:49:46Z) - ProgSG: Cross-Modality Representation Learning for Programs in
Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。
HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文 参考訳(メタデータ) (2023-05-18T09:44:18Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - On ML-Based Program Translation: Perils and Promises [17.818482089078028]
この研究は、教師なしのプログラム翻訳者とその失敗の理由を調査する。
入力が特定のパターンに従う場合、入力コードを前処理し、出力が特定のパターンに従う場合、出力を後処理するルールベースのプログラム突然変異エンジンを開発する。
将来的には、プログラムドメイン知識をMLベースの翻訳パイプラインに組み込むことができるエンドツーエンドのプログラム翻訳ツールを構想する。
論文 参考訳(メタデータ) (2023-02-21T16:42:20Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Code Translation with Compiler Representations [21.702473137941006]
従来のトランスパイラは構文情報と手作りのルールに依存しており、適用性が制限され、不自然なコードを生成する。
コードへのニューラルマシン翻訳(NMT)アプローチの適用は、自然な翻訳を得られる一連のプログラムをうまく拡張した。
ここでは、C++、Java、Rust、Go言語に関する結果とともに、IR、特にLLVM IRによるコード翻訳を強化することを提案する。
論文 参考訳(メタデータ) (2022-06-30T14:21:57Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。