論文の概要: Long-Range Modeling of Source Code Files with eWASH: Extended Window
Access by Syntax Hierarchy
- arxiv url: http://arxiv.org/abs/2109.08780v1
- Date: Fri, 17 Sep 2021 23:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:07:04.774838
- Title: Long-Range Modeling of Source Code Files with eWASH: Extended Window
Access by Syntax Hierarchy
- Title(参考訳): ewashによるソースコードファイルの長距離モデリング:構文階層による拡張ウィンドウアクセス
- Authors: Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain,
Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy
- Abstract要約: ファイルレベルのコンテキスト全体を固定長ウィンドウに活用するためのアーキテクチャに依存しないアプローチを導入する。
本稿は,Python言語における自然言語とソースコードのコード生成タスクと共同翻訳について評価する。
- 参考スコア(独自算出の注目度): 30.368963500809365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical language modeling and translation with transformers have found
many successful applications in program understanding and generation tasks,
setting high benchmarks for tools in modern software development environments.
The finite context window of these neural models means, however, that they will
be unable to leverage the entire relevant context of large files and packages
for any given task. While there are many efforts to extend the context window,
we introduce an architecture-independent approach for leveraging the syntactic
hierarchies of source code for incorporating entire file-level context into a
fixed-length window. Using concrete syntax trees of each source file we extract
syntactic hierarchies and integrate them into context window by selectively
removing from view more specific, less relevant scopes for a given task. We
evaluate this approach on code generation tasks and joint translation of
natural language and source code in Python programming language, achieving a
new state-of-the-art in code completion and summarization for Python in the
CodeXGLUE benchmark. We also introduce new CodeXGLUE benchmarks for
user-experience-motivated tasks: code completion with normalized literals,
method body completion/code summarization conditioned on file-level context.
- Abstract(参考訳): 統計的言語モデリングとトランスフォーマによる翻訳は、プログラムの理解と生成タスクで多くのアプリケーションが成功し、現代のソフトウェア開発環境でツールのハイベンチマークを設定している。
しかし、これらのニューラルモデルの有限コンテキストウィンドウは、特定のタスクに対して、大きなファイルやパッケージの関連するコンテキスト全体を活用できないことを意味する。
コンテキストウィンドウの拡張には多くの取り組みがあるが、ソースコードの構文階層を利用してファイルレベルのコンテキスト全体を固定長ウィンドウに組み込むアーキテクチャに依存しないアプローチを導入する。
各ソースファイルの具体的な構文木を使用して構文階層を抽出し、指定されたタスクのスコープをより具体的に、より重要でないビューから選択的に削除することで、それらをコンテキストウィンドウに統合します。
我々は,Python言語におけるコード生成タスクと自然言語とソースコードの合同翻訳について評価し,CodeXGLUEベンチマークでPythonのコード補完と要約を新たに実現した。
正規化リテラルによるコード補完,ファイルレベルのコンテキストで条件付けられたメソッドボディ補完/コード要約といった,ユーザエクスペリエンスによるタスクのための新しいcodexglueベンチマークも導入した。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file
Context [82.88371379927112]
予め訓練されたコード LM 上で,ファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークを提案する。
CoCoMICは既存のコードLMを33.94%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが28.69%増加した。
論文 参考訳(メタデータ) (2022-12-20T05:48:09Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。