Fugu-MT 論文翻訳(概要): CodeFuse-Query: A Data-Centric Static Code Analysis System for Large-Scale Organizations

論文の概要: CodeFuse-Query: A Data-Centric Static Code Analysis System for Large-Scale Organizations

arxiv url: http://arxiv.org/abs/2401.01571v1
Date: Wed, 3 Jan 2024 06:56:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 14:58:14.629486
Title: CodeFuse-Query: A Data-Centric Static Code Analysis System for Large-Scale Organizations
Title（参考訳）: CodeFuse-Query: 大規模組織を対象としたデータ中心静的コード分析システム
Authors: Xiaoheng Xie, Gang Fan, Xiaojun Lin, Ang Zhou, Shijie Li, Xunjin Zheng, Yinan Liang, Yu Zhang, Na Yu, Haokun Li, Xinyu Chen, Yingzhuang Chen, Yi Zhen, Dejun Dong, Xianjin Fu, Jinzhou Su, Fuxiong Pan, Pengshuai Luo, Youzheng Feng, Ruoxiang Hu, Jing Fan, Jinguo Zhou, Xiao Xiao, Peng Di
Abstract要約: CodeFuse-Queryは、コード解析をデータ計算タスクとして再定義する。システムは毎日100億行以上のコードをスキャンし、300以上のタスクをサポートする。
参考スコア（独自算出の注目度）: 21.688988418676878
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In the domain of large-scale software development, the demands for dynamic and multifaceted static code analysis exceed the capabilities of traditional tools. To bridge this gap, we present CodeFuse-Query, a system that redefines static code analysis through the fusion of Domain Optimized System Design and Logic Oriented Computation Design. CodeFuse-Query reimagines code analysis as a data computation task, support scanning over 10 billion lines of code daily and more than 300 different tasks. It optimizes resource utilization, prioritizes data reusability, applies incremental code extraction, and introduces tasks types specially for Code Change, underscoring its domain-optimized design. The system's logic-oriented facet employs Datalog, utilizing a unique two-tiered schema, COREF, to convert source code into data facts. Through Godel, a distinctive language, CodeFuse-Query enables formulation of complex tasks as logical expressions, harnessing Datalog's declarative prowess. This paper provides empirical evidence of CodeFuse-Query's transformative approach, demonstrating its robustness, scalability, and efficiency. We also highlight its real-world impact and diverse applications, emphasizing its potential to reshape the landscape of static code analysis in the context of large-scale software development.Furthermore, in the spirit of collaboration and advancing the field, our project is open-sourced and the repository is available for public access
Abstract（参考訳）: 大規模ソフトウェア開発の分野では、動的かつ多面的な静的コード解析の要求は、従来のツールの能力を超える。このギャップを埋めるために,ドメイン最適化システム設計と論理指向計算設計の融合により静的コード解析を再定義するCodeFuse-Queryを提案する。 codefuse-queryは、データ計算タスクとしてコード解析を再設計し、毎日100億行以上のコードをスキャンし、300以上の異なるタスクをサポートする。リソースの利用を最適化し、データの再利用性を優先し、インクリメンタルなコード抽出を適用し、コード変更専用のタスクタイプを導入し、ドメイン最適化設計を強調する。システムのロジック指向のファセットは、ソースコードをデータ事実に変換するために、ユニークな2層スキーマであるCOREFを使用するDatalogを使用している。独特の言語であるgodelを通じて、codefuse-queryは複雑なタスクを論理式として定式化できる。本稿では,codefuse-queryのトランスフォーメーションアプローチの実証的証拠を提供し,その堅牢性,スケーラビリティ,効率性を示す。我々はまた、その実世界のインパクトと多様なアプリケーションを強調し、大規模なソフトウェア開発の文脈で静的コード解析の景観を再構築する可能性を強調した。

関連論文リスト

Code Fingerprints: Disentangled Attribution of LLM-Generated Code [7.515488307576106]
生成したコードに責任を負うソースLLMを決定することを目的とした,モデルレベルのコード属性の問題について検討する。本稿では、ソース非依存のセマンティック情報とソース-特異なスタイル表現を分離するDisentangled Code Attribution Network (DCAN)を提案する。 4つのプログラミング言語で広く使われている4つの大規模言語モデル(LLM)が生成するコードからなる,最初の大規模ベンチマークデータセットを構築した。
論文参考訳（メタデータ） (2026-03-04T15:58:36Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。 LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。 LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文参考訳（メタデータ） (2025-09-03T06:42:40Z)
A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。 LLMは3つのコア特徴によって特徴づけられる。本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文参考訳（メタデータ） (2025-07-31T18:17:36Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
Code-Craft: Hierarchical Graph-Based Code Summarization for Enhanced Context Retrieval [0.0]
本稿では,階層型コードグラフ要約(HCGS)を提案する。これは,コードグラフからボトムアップ形式で構造化された要約を生成することによって,aの多層表現を構築する新しいアプローチである。 HCGSは、従来のコードのみの検索をすべてのメトリクスで一貫して上回っている。
論文参考訳（メタデータ） (2025-04-11T20:57:27Z)
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文参考訳（メタデータ） (2025-02-26T18:55:42Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。 LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。 SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文参考訳（メタデータ） (2025-01-08T18:58:15Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Chain-of-Programming (CoP) : Empowering Large Language Models for Geospatial Code Generation [2.6026969939746705]
本稿では,コード生成プロセスを5段階に分解するプログラミングフレームワークを提案する。このフレームワークには、共有情報プール、知識ベース検索、ユーザフィードバック機構が含まれている。生成されたコードの論理的明確性、構文的正確性、実行可能性を大幅に改善する。
論文参考訳（メタデータ） (2024-11-16T09:20:35Z)
Code-Survey: An LLM-Driven Methodology for Analyzing Large-Scale Codebases [3.8153349016958074]
我々は,大規模規模の探索と解析を目的とした最初のLCM駆動型手法であるCode-Surveyを紹介した。調査を慎重に設計することで、Code-Surveyはコミット、Eメールなどの構造化されていないデータを、構造化、構造化、分析可能なデータセットに変換する。これにより、複雑なソフトウェアの進化を定量的に分析し、設計、実装、保守、信頼性、セキュリティに関する貴重な洞察を明らかにすることができる。
論文参考訳（メタデータ） (2024-09-24T17:08:29Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
LAMBDA: A Large Model Based Data Agent [7.240586338370509]
本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。 LAMBDAは、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文参考訳（メタデータ） (2024-07-24T06:26:36Z)
Enhancing Source Code Representations for Deep Learning with Static Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文参考訳（メタデータ） (2024-02-14T20:17:04Z)
A Unified Active Learning Framework for Annotating Graph Data with Application to Software Source Code Performance Prediction [4.572330678291241]
ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
論文参考訳（メタデータ） (2023-04-06T14:00:48Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。