Fugu-MT 論文翻訳(概要): PerfGen: Automated Performance Benchmark Generation for Big Data Analytics

論文の概要: PerfGen: Automated Performance Benchmark Generation for Big Data Analytics

arxiv url: http://arxiv.org/abs/2412.04687v1
Date: Fri, 06 Dec 2024 00:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:40.967903
Title: PerfGen: Automated Performance Benchmark Generation for Big Data Analytics
Title（参考訳）: PerfGen:ビッグデータ分析のための自動パフォーマンスベンチマーク生成
Authors: Jiyuan Wang, Jason Teoh, Muhammand Ali Gulza, Qian Zhang, Miryung Kim,
Abstract要約: 計算スキュー、データスキュー、メモリスキューなど、ビッグデータ分析における性能低下の多くの症状が入力に依存する。 PerfGenはパフォーマンステストのためにインプットを自動的に生成するように設計されている。 PerfGenは、パフォーマンスの症状を誘発するインプットを生成する場合、従来のファジングアプローチと比較して、少なくとも11倍のスピードアップを達成する。
参考スコア（独自算出の注目度）: 6.4905318866478625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many symptoms of poor performance in big data analytics such as computational skews, data skews, and memory skews are input dependent. However, due to the lack of inputs that can trigger such performance symptoms, it is hard to debug and test big data analytics. We design PerfGen to automatically generate inputs for the purpose of performance testing. PerfGen overcomes three challenges when naively using automated fuzz testing for the purpose of performance testing. First, typical greybox fuzzing relies on coverage as a guidance signal and thus is unlikely to trigger interesting performance behavior. Therefore, PerfGen provides performance monitor templates that a user can extend to serve as a set of guidance metrics for grey-box fuzzing. Second, performance symptoms may occur at an intermediate or later stage of a big data analytics pipeline. Thus, PerfGen uses a phased fuzzing approach. This approach identifies symptom-causing intermediate inputs at an intermediate stage first and then converts them to the inputs at the beginning of the program with a pseudo-inverse function generated by a large language model. Third, PerfGen defines sets of skew-inspired input mutations, which increases the chance of inducing performance problems. We evaluate PerfGen using four case studies. PerfGen achieves at least 11x speedup compared to a traditional fuzzing approach when generating inputs to trigger performance symptoms. Additionally, identifying intermediate inputs first and then converting them to original inputs enables PerfGen to generate such workloads in less than 0.004% of the iterations required by a baseline approach.
Abstract（参考訳）: 計算スキュー、データスキュー、メモリスキューなど、ビッグデータ分析における性能低下の多くの症状が入力に依存する。しかし、そのようなパフォーマンスの症状を引き起こすインプットが不足しているため、ビッグデータ分析のデバッグとテストは困難である。私たちはPerfGenを設計し、パフォーマンステストのためにインプットを自動的に生成します。 PerfGenは、パフォーマンステストのために自動ファズテストを使用することで、3つの課題を克服している。まず、典型的なグレーボックスファジリングは、ガイダンス信号としてカバレッジに依存しているので、興味深いパフォーマンス動作を引き起こすことはありそうにない。したがって、PerfGenは、グレーボックスファジングのためのガイダンス指標のセットとして、ユーザが拡張可能なパフォーマンスモニタテンプレートを提供する。第2に、ビッグデータ分析パイプラインの中間または後半にパフォーマンスの症状が発生する可能性がある。したがって、PerfGenはフェーズドファジッシングアプローチを使用する。提案手法では, 中間段階における症状を考慮した中間入力をまず同定し, プログラム開始時の入力に変換し, 大規模言語モデルで生成した擬似逆関数を用いる。第3に、PerfGenはスキューインスパイアされた入力突然変異のセットを定義し、パフォーマンス問題を誘発する可能性を高める。 4つのケーススタディを用いてPerfGenを評価した。 PerfGenは、パフォーマンスの症状を誘発するインプットを生成する場合、従来のファジングアプローチと比較して、少なくとも11倍のスピードアップを達成する。さらに、中間入力を最初に識別し、それらを元の入力に変換することで、PerfGenはベースラインアプローチに必要なイテレーションの0.004%未満で、そのようなワークロードを生成することができる。

関連論文リスト

Machine Learning for Consistency Violation Faults Analysis [0.0]
本研究では,分散システムにおける整合性障害(cvfs)の影響を機械学習で解析する手法を提案する。プログラム遷移ランクとそれに対応する効果を計算し,システム動作に対するcvfsの影響を定量化する。実験の結果、有望な性能を示し、テスト損失は4.39、絶対誤差は1.5である。
論文参考訳（メタデータ） (2025-05-20T22:11:43Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
Data Augmentation by Fuzzing for Neural Test Generation [7.310817657037053]
本稿では,大言語モデルにファジングの利点を導入する新しいデータ拡張手法である *FuzzAug* を紹介する。評価の結果,FuzzAugで強化されたデータセットを用いてトレーニングしたモデルでは,アサーション精度が5%向上し,コンパイル速度が10%以上向上し,ブランチカバレッジが5%向上した単体テスト関数が生成されることがわかった。
論文参考訳（メタデータ） (2024-06-12T22:09:27Z)
Generator-Based Fuzzers with Type-Based Targeted Mutation [1.4507298892594764]
以前の研究では、カバレッジ誘導型ファジィザは静的解析、テイント解析、制約解法を混合してこの問題に対処していた。本稿では,Java GBFの文字列検索とともに,型ベースの突然変異を導入する。ベースラインのGBFツールと比較すると、アプリケーションカバレッジは平均20%改善しており、サードパーティのコードを含めると、より大きく改善されている。
論文参考訳（メタデータ） (2024-06-04T07:20:13Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
Validity-Preserving Delta Debugging via Generator Trace Reduction [14.24086822861706]
GReduceは、削減された有効なテスト入力を出力するジェネレータ上の他の実行を検索する。 GReduceはPersesやT-PDDなど最先端の構文ベースのリデューサを大幅に上回っている。
論文参考訳（メタデータ） (2024-02-07T07:12:27Z)
Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文参考訳（メタデータ） (2023-11-02T12:01:29Z)
A hybrid feature learning approach based on convolutional kernels for ATM fault prediction using event-log data [5.859431341476405]
イベントログデータから特徴を抽出するために,畳み込みカーネル(MiniROCKETとHYDRA)に基づく予測モデルを提案する。提案手法は,実世界の重要な収集データセットに適用される。このモデルは、ATMのタイムリーなメンテナンスにおいてオペレータをサポートするコンテナベースの意思決定支援システムに統合された。
論文参考訳（メタデータ） (2023-05-17T08:55:53Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Fast Test Input Generation for Finding Deviated Behaviors in Compressed Deep Neural Network [18.205951607889556]
本稿では,TriggerFinder を用いて,圧縮モデルにおける不規則な動作をトリガーする入力を自動的に識別する手法を提案する。 2つのデータセットを持つ18の圧縮モデル上でTriggerFinderを評価する。
論文参考訳（メタデータ） (2021-12-06T07:12:49Z)
FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。 fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文参考訳（メタデータ） (2020-12-31T18:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。