論文の概要: CodeFuse-Query: A Data-Centric Static Code Analysis System for
Large-Scale Organizations
- arxiv url: http://arxiv.org/abs/2401.01571v1
- Date: Wed, 3 Jan 2024 06:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:58:14.629486
- Title: CodeFuse-Query: A Data-Centric Static Code Analysis System for
Large-Scale Organizations
- Title(参考訳): CodeFuse-Query: 大規模組織を対象としたデータ中心静的コード分析システム
- Authors: Xiaoheng Xie, Gang Fan, Xiaojun Lin, Ang Zhou, Shijie Li, Xunjin
Zheng, Yinan Liang, Yu Zhang, Na Yu, Haokun Li, Xinyu Chen, Yingzhuang Chen,
Yi Zhen, Dejun Dong, Xianjin Fu, Jinzhou Su, Fuxiong Pan, Pengshuai Luo,
Youzheng Feng, Ruoxiang Hu, Jing Fan, Jinguo Zhou, Xiao Xiao, Peng Di
- Abstract要約: CodeFuse-Queryは、コード解析をデータ計算タスクとして再定義する。
システムは毎日100億行以上のコードをスキャンし、300以上のタスクをサポートする。
- 参考スコア(独自算出の注目度): 21.688988418676878
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the domain of large-scale software development, the demands for dynamic
and multifaceted static code analysis exceed the capabilities of traditional
tools. To bridge this gap, we present CodeFuse-Query, a system that redefines
static code analysis through the fusion of Domain Optimized System Design and
Logic Oriented Computation Design.
CodeFuse-Query reimagines code analysis as a data computation task, support
scanning over 10 billion lines of code daily and more than 300 different tasks.
It optimizes resource utilization, prioritizes data reusability, applies
incremental code extraction, and introduces tasks types specially for Code
Change, underscoring its domain-optimized design. The system's logic-oriented
facet employs Datalog, utilizing a unique two-tiered schema, COREF, to convert
source code into data facts. Through Godel, a distinctive language,
CodeFuse-Query enables formulation of complex tasks as logical expressions,
harnessing Datalog's declarative prowess.
This paper provides empirical evidence of CodeFuse-Query's transformative
approach, demonstrating its robustness, scalability, and efficiency. We also
highlight its real-world impact and diverse applications, emphasizing its
potential to reshape the landscape of static code analysis in the context of
large-scale software development.Furthermore, in the spirit of collaboration
and advancing the field, our project is open-sourced and the repository is
available for public access
- Abstract(参考訳): 大規模ソフトウェア開発の分野では、動的かつ多面的な静的コード解析の要求は、従来のツールの能力を超える。
このギャップを埋めるために,ドメイン最適化システム設計と論理指向計算設計の融合により静的コード解析を再定義するCodeFuse-Queryを提案する。
codefuse-queryは、データ計算タスクとしてコード解析を再設計し、毎日100億行以上のコードをスキャンし、300以上の異なるタスクをサポートする。
リソースの利用を最適化し、データの再利用性を優先し、インクリメンタルなコード抽出を適用し、コード変更専用のタスクタイプを導入し、ドメイン最適化設計を強調する。
システムのロジック指向のファセットは、ソースコードをデータ事実に変換するために、ユニークな2層スキーマであるCOREFを使用するDatalogを使用している。
独特の言語であるgodelを通じて、codefuse-queryは複雑なタスクを論理式として定式化できる。
本稿では,codefuse-queryのトランスフォーメーションアプローチの実証的証拠を提供し,その堅牢性,スケーラビリティ,効率性を示す。
我々はまた、その実世界のインパクトと多様なアプリケーションを強調し、大規模なソフトウェア開発の文脈で静的コード解析の景観を再構築する可能性を強調した。
関連論文リスト
- S3LLM: Large-Scale Scientific Software Understanding with LLMs using Source, Metadata, and Document [8.518000504951404]
大規模言語モデル(LLM)は、複雑な科学的コードを理解するための新しい経路を提供する。
S3LLMは、ソースコード、コードメタデータ、要約された情報を対話的で対話的な方法で検証できるように設計されたフレームワークである。
S3LLMは、大規模科学計算ソフトウェアを迅速に理解するために、ローカルにデプロイされたオープンソースLLMを使用する可能性を実証している。
論文 参考訳(メタデータ) (2024-03-15T17:04:27Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Encoding Version History Context for Better Code Representation [13.045078976464307]
本稿では,コードクローンを予測し,コード分類を行うために,バージョン履歴からコンテキスト情報を符号化することの潜在的な利点について,予備的な証拠を示す。
技術が一貫して機能するためには、コンテキスト、集約、モデルの異なる組み合わせを使用して、より大きなコードベースに関する包括的な調査を行う必要があります。
論文 参考訳(メタデータ) (2024-02-06T07:35:36Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Discriminating Human-authored from ChatGPT-Generated Code Via
Discernable Feature Analysis [2.9398911304923447]
本稿では,ChatGPTが生成するコードと,人間が作成したコードとを区別することを目的とする。
時間的・空間的セグメンテーションを用いたデータセット浄化手法を考案し,データセットの変形を緩和する。
データリソースをさらに強化するために、我々は、ChatGPT生成コードの1万行からなる広範囲なデータセットを生成する"コード変換"、"機能変換"、"機能カスタマイズ"技術を採用している。
論文 参考訳(メタデータ) (2023-06-26T03:15:06Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - A Unified Active Learning Framework for Annotating Graph Data with
Application to Software Source Code Performance Prediction [4.572330678291241]
ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。
能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。
我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
論文 参考訳(メタデータ) (2023-04-06T14:00:48Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。