論文の概要: Long-Range Modeling of Source Code Files with eWASH: Extended Window
Access by Syntax Hierarchy
- arxiv url: http://arxiv.org/abs/2109.08780v1
- Date: Fri, 17 Sep 2021 23:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:07:04.774838
- Title: Long-Range Modeling of Source Code Files with eWASH: Extended Window
Access by Syntax Hierarchy
- Title(参考訳): ewashによるソースコードファイルの長距離モデリング:構文階層による拡張ウィンドウアクセス
- Authors: Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain,
Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy
- Abstract要約: ファイルレベルのコンテキスト全体を固定長ウィンドウに活用するためのアーキテクチャに依存しないアプローチを導入する。
本稿は,Python言語における自然言語とソースコードのコード生成タスクと共同翻訳について評価する。
- 参考スコア(独自算出の注目度): 30.368963500809365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical language modeling and translation with transformers have found
many successful applications in program understanding and generation tasks,
setting high benchmarks for tools in modern software development environments.
The finite context window of these neural models means, however, that they will
be unable to leverage the entire relevant context of large files and packages
for any given task. While there are many efforts to extend the context window,
we introduce an architecture-independent approach for leveraging the syntactic
hierarchies of source code for incorporating entire file-level context into a
fixed-length window. Using concrete syntax trees of each source file we extract
syntactic hierarchies and integrate them into context window by selectively
removing from view more specific, less relevant scopes for a given task. We
evaluate this approach on code generation tasks and joint translation of
natural language and source code in Python programming language, achieving a
new state-of-the-art in code completion and summarization for Python in the
CodeXGLUE benchmark. We also introduce new CodeXGLUE benchmarks for
user-experience-motivated tasks: code completion with normalized literals,
method body completion/code summarization conditioned on file-level context.
- Abstract(参考訳): 統計的言語モデリングとトランスフォーマによる翻訳は、プログラムの理解と生成タスクで多くのアプリケーションが成功し、現代のソフトウェア開発環境でツールのハイベンチマークを設定している。
しかし、これらのニューラルモデルの有限コンテキストウィンドウは、特定のタスクに対して、大きなファイルやパッケージの関連するコンテキスト全体を活用できないことを意味する。
コンテキストウィンドウの拡張には多くの取り組みがあるが、ソースコードの構文階層を利用してファイルレベルのコンテキスト全体を固定長ウィンドウに組み込むアーキテクチャに依存しないアプローチを導入する。
各ソースファイルの具体的な構文木を使用して構文階層を抽出し、指定されたタスクのスコープをより具体的に、より重要でないビューから選択的に削除することで、それらをコンテキストウィンドウに統合します。
我々は,Python言語におけるコード生成タスクと自然言語とソースコードの合同翻訳について評価し,CodeXGLUEベンチマークでPythonのコード補完と要約を新たに実現した。
正規化リテラルによるコード補完,ファイルレベルのコンテキストで条件付けられたメソッドボディ補完/コード要約といった,ユーザエクスペリエンスによるタスクのための新しいcodexglueベンチマークも導入した。
関連論文リスト
- ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file
Context [82.88371379927112]
予め訓練されたコード LM 上で,ファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークを提案する。
CoCoMICは既存のコードLMを33.94%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが28.69%増加した。
論文 参考訳(メタデータ) (2022-12-20T05:48:09Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。