論文の概要: Autoencoders as Tools for Program Synthesis
- arxiv url: http://arxiv.org/abs/2108.07129v1
- Date: Mon, 16 Aug 2021 14:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 17:55:44.183829
- Title: Autoencoders as Tools for Program Synthesis
- Title(参考訳): プログラム合成ツールとしてのオートエンコーダ
- Authors: Sander de Bruin, Vadim Liventsev, Milan Petkovi\'c
- Abstract要約: 本稿では,業界グレードプログラミング言語のプログラム合成のための変分オートエンコーダモデルを提案する。
本モデルでは,ソースコードの内部階層構造を組み込んで解析木で動作する。
- 参考スコア(独自算出の注目度): 0.43012765978447565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently there have been many advances in research on language modeling of
source code. Applications range from code suggestion and completion to code
summarization. However, complete program synthesis of industry-grade
programming languages has not been researched extensively. In this work, we
introduce a variational autoencoder model for program synthesis of
industry-grade programming languages. Our model incorporates the internal
hierarchical structure of source codes and operates on parse trees. By learning
a latent representation of source code over trees, we capture more information
and achieve a higher performance than standard autoregressive autoencoder
models. Furthermore, due to the tree-structured nature of our model, the
autoregressive operations are performed on paths of trees instead of linear
sequences. Therefore, the size of the sequences that the autoregressive model
processes, scales proportionally to the width and depth of the tree instead of
the total size of the tree which mitigates the common problem of exploding and
vanishing gradients.
- Abstract(参考訳): 近年,ソースコードの言語モデリングに関する研究が盛んに行われている。
アプリケーションはコードの提案と完了からコードの要約まで幅広い。
しかし、業界レベルプログラミング言語の完全なプログラム合成は、広く研究されていない。
本研究では,産業用プログラミング言語のプログラム合成のための変分オートエンコーダモデルを提案する。
本モデルは,ソースコードの内部階層構造を取り入れ,解析木で動作する。
木上のソースコードの潜在表現を学習することにより、より多くの情報をキャプチャし、標準の自己回帰オートエンコーダモデルよりも高いパフォーマンスを達成する。
さらに,本モデルでは木構造の性質から,線形列ではなく木の経路上で自己回帰操作を行う。
したがって、自己回帰モデルが処理するシーケンスのサイズは、爆発と消滅の共通問題を緩和する木全体のサイズではなく、木の幅と深さに比例してスケールする。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - Wasserstein Auto-Encoders of Merge Trees (and Persistence Diagrams) [5.384630221560809]
本稿では、マージツリーの自動符号化(MT-WAE)のための計算フレームワークを提案する。
ベクトル化されたデータを扱う従来のオートエンコーダとは対照的に,ネットワークの各層における関連計量空間上のマージ木を明示的に操作する。
公開アンサンブルの実験では,MT-WAE計算を平均数分のオーダーで行うことで,アルゴリズムの効率を実証した。
論文 参考訳(メタデータ) (2023-07-05T09:46:52Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - Structural Optimization Makes Graph Classification Simpler and Better [5.770986723520119]
モデル学習プロセスを簡素化しつつ,グラフ分類性能の向上の可能性を検討する。
構造情報アセスメントの進歩に触発されて、グラフから木をコードするデータサンプルを最適化する。
本稿では,木カーネルと畳み込みネットワークにこのスキームを実装し,グラフ分類を行う。
論文 参考訳(メタデータ) (2021-09-05T08:54:38Z) - Recursive Tree Grammar Autoencoders [3.791857415239352]
本稿では,木をボトムアップ文法で符号化し,木を木文法で復号する,新しいオートエンコーダ手法を提案する。
提案手法は, 4つのベンチマークデータセットにおいて, 自動符号化誤差, トレーニング時間, 最適化スコアを改善することを実験的に示す。
論文 参考訳(メタデータ) (2020-12-03T17:37:25Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Tree Echo State Autoencoders with Grammars [3.7280152311394827]
木の非ベクトル的かつ離散的な性質は、木形式の出力を持つ関数を構築するのを難しくする。
既存のオートエンコーディングアプローチは、ツリードメインの特定の文法構造を考慮に入れない。
本研究では,木文法でガイドされる木エコー状態オートエンコーダ(TES-AE)を提案する。
論文 参考訳(メタデータ) (2020-04-19T18:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。