論文の概要: Scaling Inter-procedural Dataflow Analysis on the Cloud
- arxiv url: http://arxiv.org/abs/2412.12579v1
- Date: Tue, 17 Dec 2024 06:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 17:09:38.562541
- Title: Scaling Inter-procedural Dataflow Analysis on the Cloud
- Title(参考訳): クラウド上でのプロセス間データフロー解析のスケールアップ
- Authors: Zewen Sun, Yujin Zhang, Duanchen Xu, Yiyu Zhang, Yun Qi, Yueyang Wang, Yi Li, Zhaokang Wang, Yue Li, Xuandong Li, Zhiqiang Zuo, Qingda Lu, Wenwen Peng, Shengjian Guo,
- Abstract要約: 大規模クラスタ上で動作するBigDataflowという分散フレームワークを開発しました。
BigDataflowは、数百万行のコードのプログラムを数分で分析する。
- 参考スコア(独自算出の注目度): 19.562864760293955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Apart from forming the backbone of compiler optimization, static dataflow analysis has been widely applied in a vast variety of applications, such as bug detection, privacy analysis, program comprehension, etc. Despite its importance, performing interprocedural dataflow analysis on large-scale programs is well known to be challenging. In this paper, we propose a novel distributed analysis framework supporting the general interprocedural dataflow analysis. Inspired by large-scale graph processing, we devise dedicated distributed worklist algorithms for both whole-program analysis and incremental analysis. We implement these algorithms and develop a distributed framework called BigDataflow running on a large-scale cluster. The experimental results validate the promising performance of BigDataflow -- BigDataflow can finish analyzing the program of millions lines of code in minutes. Compared with the state-of-the-art, BigDataflow achieves much more analysis efficiency.
- Abstract(参考訳): コンパイラ最適化のバックボーンの形成とは別に、静的データフロー分析は、バグ検出、プライバシ分析、プログラムの理解など、幅広いアプリケーションに広く適用されています。
その重要性にもかかわらず、大規模プログラムで相互言語間データフロー解析を行うことは困難であることが知られている。
本稿では,汎用的な言語間データフロー解析を支援する分散分析フレームワークを提案する。
大規模グラフ処理にインスパイアされた我々は、プログラム全体の解析とインクリメンタル解析の両方に専用の分散ワークリストアルゴリズムを考案した。
これらのアルゴリズムを実装し,大規模クラスタ上で動作するBigDataflowと呼ばれる分散フレームワークを開発する。
BigDataflowは数百万行のコードを数分で分析し終えることができます。
最先端と比較して、BigDataflowは分析効率をはるかに向上させる。
関連論文リスト
- Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach [0.3683202928838613]
本稿では,クエリされたデータと類似したデータセットからモデルを作成することにより,解析演算子の結果を推定する新しい手法を提案する。
我々のモデルは、より低いベクトル埋め込み表現に異なる実世界のシナリオを投影し、それらを区別することができる。
論文 参考訳(メタデータ) (2025-02-24T11:21:08Z) - Research on the Application of Spark Streaming Real-Time Data Analysis System and large language model Intelligent Agents [1.4582633500696451]
本研究では、ビッグデータ環境におけるリアルタイムデータ分析システムを強化するために、Agent AIとLangGraphの統合について検討する。
提案したフレームワークは、静的で非効率なステートフル計算の限界を克服し、人間の介入の欠如を克服する。
システムアーキテクチャにはApache Spark Streaming、Kafka、LangGraphが組み込まれ、高性能な感情分析システムを構築する。
論文 参考訳(メタデータ) (2024-12-10T05:51:11Z) - LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文 参考訳(メタデータ) (2024-02-16T15:21:35Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation [52.9168275057997]
本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。
Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T10:21:08Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Divide-and-conquer methods for big data analysis [0.0]
Divide-and-conquer 方法論は多段階のプロセスを指す。
本稿では,近年の分割・分割法の開発について概説する。
論文 参考訳(メタデータ) (2021-02-22T04:40:55Z) - A Forward Backward Greedy approach for Sparse Multiscale Learning [0.0]
本稿では,カーネルが重み付きマルチスケール構造を持つRKHS(Reproduction Kernel Hilbert space)を提案する。
この空間における近似を生成するために、多スケール構造を持つ基底関数の集合をゆるやかに構成できる実用的なフォワードバックワードアルゴリズムを提供する。
我々は,様々なシミュレーションと実データ集合を用いて,アプローチの性能を解析する。
論文 参考訳(メタデータ) (2021-02-14T04:22:52Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - Interpretable Feature Learning in Multivariate Big Data Analysis for
Network Monitoring [0.4342241136871849]
最近提案された解釈可能なデータ解析ツールであるMultivarate Big Data Analysis (MBDA) の方法論の拡張について述べる。
本稿では,データ量が大きければMBDAを応用するための基礎的なステップである特徴の自動導出の解決策を提案する。
拡張MBDAを2つのケーススタディに適用する。フローベースの異常検出のためのベンチマークデータセットであるUGR'16と、これまで知られている中で最長かつ最大のWi-FiトレースであるDartmouth'18だ。
論文 参考訳(メタデータ) (2019-07-05T04:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。