Fugu-MT 論文翻訳(概要): Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy

論文の概要: Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy

arxiv url: http://arxiv.org/abs/2109.08780v1
Date: Fri, 17 Sep 2021 23:11:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-21 16:07:04.774838
Title: Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy
Title（参考訳）: ewashによるソースコードファイルの長距離モデリング:構文階層による拡張ウィンドウアクセス
Authors: Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain, Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy
Abstract要約: ファイルレベルのコンテキスト全体を固定長ウィンドウに活用するためのアーキテクチャに依存しないアプローチを導入する。本稿は,Python言語における自然言語とソースコードのコード生成タスクと共同翻訳について評価する。
参考スコア（独自算出の注目度）: 30.368963500809365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Statistical language modeling and translation with transformers have found many successful applications in program understanding and generation tasks, setting high benchmarks for tools in modern software development environments. The finite context window of these neural models means, however, that they will be unable to leverage the entire relevant context of large files and packages for any given task. While there are many efforts to extend the context window, we introduce an architecture-independent approach for leveraging the syntactic hierarchies of source code for incorporating entire file-level context into a fixed-length window. Using concrete syntax trees of each source file we extract syntactic hierarchies and integrate them into context window by selectively removing from view more specific, less relevant scopes for a given task. We evaluate this approach on code generation tasks and joint translation of natural language and source code in Python programming language, achieving a new state-of-the-art in code completion and summarization for Python in the CodeXGLUE benchmark. We also introduce new CodeXGLUE benchmarks for user-experience-motivated tasks: code completion with normalized literals, method body completion/code summarization conditioned on file-level context.
Abstract（参考訳）: 統計的言語モデリングとトランスフォーマによる翻訳は、プログラムの理解と生成タスクで多くのアプリケーションが成功し、現代のソフトウェア開発環境でツールのハイベンチマークを設定している。しかし、これらのニューラルモデルの有限コンテキストウィンドウは、特定のタスクに対して、大きなファイルやパッケージの関連するコンテキスト全体を活用できないことを意味する。コンテキストウィンドウの拡張には多くの取り組みがあるが、ソースコードの構文階層を利用してファイルレベルのコンテキスト全体を固定長ウィンドウに組み込むアーキテクチャに依存しないアプローチを導入する。各ソースファイルの具体的な構文木を使用して構文階層を抽出し、指定されたタスクのスコープをより具体的に、より重要でないビューから選択的に削除することで、それらをコンテキストウィンドウに統合します。我々は,Python言語におけるコード生成タスクと自然言語とソースコードの合同翻訳について評価し,CodeXGLUEベンチマークでPythonのコード補完と要約を新たに実現した。正規化リテラルによるコード補完,ファイルレベルのコンテキストで条件付けられたメソッドボディ補完/コード要約といった,ユーザエクスペリエンスによるタスクのための新しいcodexglueベンチマークも導入した。

関連論文リスト

Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。 CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-04T07:37:59Z)
ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文参考訳（メタデータ） (2024-12-16T17:14:35Z)
The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文参考訳（メタデータ） (2024-09-02T23:28:15Z)
Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文参考訳（メタデータ） (2024-06-17T14:58:29Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文参考訳（メタデータ） (2023-04-28T01:47:09Z)
CodePod: A Language-Agnostic Hierarchical Scoping System for Interactive Development [9.607679924449748]
We present CodePod, ahierarchical extension of Jupyter that introduce a novel scoped execution model with formal semantics。私たちの重要な貢献は、階層的なスコープルールを実装するためにソースレベルの変換を実行する言語に依存しないランタイムシステムです。
論文参考訳（メタデータ） (2023-01-06T07:48:51Z)
CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file Context [82.88371379927112]
予め訓練されたコード LM 上で,ファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークを提案する。 CoCoMICは既存のコードLMを33.94%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが28.69%増加した。
論文参考訳（メタデータ） (2022-12-20T05:48:09Z)
Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文参考訳（メタデータ） (2022-12-19T22:08:36Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。