論文の概要: A^3-CodGen: A Repository-Level Code Generation Framework for Code Reuse
with Local-Aware, Global-Aware, and Third-Party-Library-Aware
- arxiv url: http://arxiv.org/abs/2312.05772v4
- Date: Tue, 5 Mar 2024 08:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:18:34.175504
- Title: A^3-CodGen: A Repository-Level Code Generation Framework for Code Reuse
with Local-Aware, Global-Aware, and Third-Party-Library-Aware
- Title(参考訳): A^3-CodGen: ローカルアウェア、グローバルアウェア、サードパーティライブラリアウェアを使ったコード再利用のためのリポジトリレベルコード生成フレームワーク
- Authors: Dianshu Liao, Shidong Pan, Xiaoyu Sun, Xiaoxue Ren, Qing Huang,
Zhenchang Xing, Huan Jin, Qinying Li
- Abstract要約: 本稿では,A3-CodGenと呼ばれる新しいコード生成フレームワークを提案する。
コードリポジトリの代表的な情報として,現在のコードファイルからのローカルアウェア情報,他のコードファイルからのグローバルアウェア情報,サードパーティライブラリ情報という3つのカテゴリを識別する。
その結果、A3-CodGenフレームワークを採用することで、コードリポジトリ情報をLLMに抽出、ヒューズ、フィードし、より正確で、効率的で、再利用性の高いコードを生成します。
- 参考スコア(独自算出の注目度): 13.850755485655435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation tools are essential to help developers in the software
development process. Existing tools often disconnect with the working context,
i.e., the code repository, causing the generated code to be not similar to
human developers. In this paper, we propose a novel code generation framework,
dubbed A^3-CodGen, to harness information within the code repository to
generate code with fewer potential logical errors, code redundancy, and
library-induced compatibility issues. We identify three categories of
representative information for the code repository: local-aware information
from current code file, global-aware information from other code files, and
third-party-library information. Results demonstrate that by adopting the
A^3-CodGen framework, we successfully extract, fuse, and feed code repository
information into the LLM, generating more accurate, efficient, and highly
reusable code. The effectiveness of our framework is further underscored by
generating code with a higher reuse rate, compared to human developers. This
research contributes significantly to the field of code generation, providing
developers with a more powerful tool to address the evolving demands in
software development in practice.
- Abstract(参考訳): コード生成ツールは、ソフトウェア開発プロセスの開発者を助けるために不可欠です。
既存のツールはしばしば作業コンテキスト、すなわちコードリポジトリと切り離され、生成されたコードは人間の開発者と似ていない。
本稿では,a^3-codgenと呼ばれる新しいコード生成フレームワークを提案する。このフレームワークは,コードリポジトリ内の情報を利用して,潜在的な論理エラーやコードの冗長性,ライブラリによる互換性問題の少ないコードを生成する。
本稿では,現在のコードファイルからのローカル認識情報,他のコードファイルからのグローバル認識情報,サードパーティライブラリ情報の3つのカテゴリを識別する。
その結果, A^3-CodGenフレームワークを採用することで, コードリポジトリ情報をLCMに抽出, ヒューズ, 供給し, より正確で, 効率的で, 再利用性の高いコードを生成することができた。
我々のフレームワークの有効性は、人間の開発者に比べて高い再利用率のコードを生成することでさらに強調されている。
この研究はコード生成の分野に大きく貢献し、開発者が実際にソフトウェア開発の進化する要求に対処するためのより強力なツールを提供する。
関連論文リスト
- RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z) - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文 参考訳(メタデータ) (2024-01-07T02:46:39Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language [13.716669765394293]
我々は、並列コード-擬似コードデータを用いて、高リソースPL(C++)で訓練されたコード-擬似コードニューラルモデルによって得られた知識の伝達に焦点をあてる。
後方翻訳により生成されたC符号の成功率を23.27%向上させる。
論文 参考訳(メタデータ) (2023-03-16T03:38:08Z) - StructCoder: Structure-Aware Transformer for Code Generation [13.797842927671846]
本稿では、構文とデータフローの両方をモデル化し、生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを提案する。
提案したStructCoderモデルは、コード翻訳およびテキスト・トゥ・コード生成タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-10T17:26:31Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - DeSkew-LSH based Code-to-Code Recommendation Engine [3.7011129410662558]
ソースコード上の機械学習のための新しいコード・ツー・コードレコメンデーションエンジンであるemphSenatusを紹介する。
SenatusのコアとなるemphDe-Skew LSHは、ローカリティに敏感なハッシュアルゴリズムで、高速(サブ線形時間)検索のためにデータをインデックスする。
コード・ツー・コード・レコメンデーションのタスクにおいて、Senatusはパフォーマンスを6.7%向上し、クエリ時間16xはFacebook Aromaよりも高速であることを示す。
論文 参考訳(メタデータ) (2021-11-05T16:56:28Z) - Retrieval Augmented Code Generation and Summarization [43.823483197436076]
本稿では,検索データベースから関連コードや要約を検索する検索拡張フレームワーク,ツールを提案する。
ツールは最先端の高密度検索技術を拡張して、関連するコードや要約を検索する。
コード生成と要約のベンチマークデータセットをJavaとPythonで実験し、広範囲に分析する。
論文 参考訳(メタデータ) (2021-08-26T06:48:13Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。