論文の概要: Autonomic Architecture for Big Data Performance Optimization
- arxiv url: http://arxiv.org/abs/2304.10503v1
- Date: Fri, 17 Mar 2023 22:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-23 03:58:27.443451
- Title: Autonomic Architecture for Big Data Performance Optimization
- Title(参考訳): ビッグデータ性能最適化のためのオートノミックアーキテクチャ
- Authors: Mikhail Genkin, Frank Dehne, Anousheh Shahmirza, Pablo Navarro, Siyu
Zhou
- Abstract要約: 本稿では,ビッグデータチューニングの自律的アーキテクチャであるKERMITについて述べる。
KERMITは、人間の管理者によるルール・オブ・サンプのチューニングよりも30%高速なパフォーマンスを実現することができる。
最大99%の精度で重要なワークロード変更を検出し、96%の精度で将来のワークロードタイプを予測することができる。
- 参考スコア(独自算出の注目度): 1.784933900656067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The big data software stack based on Apache Spark and Hadoop has become
mission critical in many enterprises. Performance of Spark and Hadoop jobs
depends on a large number of configuration settings. Manual tuning is expensive
and brittle. There have been prior efforts to develop on-line and off-line
automatic tuning approaches to make the big data stack less dependent on manual
tuning. These, however, demonstrated only modest performance improvements with
very simple, single-user workloads on small data sets. This paper presents
KERMIT - the autonomic architecture for big data capable of automatically
tuning Apache Spark and Hadoop on-line, and achieving performance results 30%
faster than rule-of-thumb tuning by a human administrator and up to 92% as fast
as the fastest possible tuning established by performing an exhaustive search
of the tuning parameter space. KERMIT can detect important workload changes
with up to 99% accuracy, and predict future workload types with up to 96%
accuracy. It is capable of identifying and classifying complex multi-user
workloads without being explicitly trained on examples of these workloads. It
does not rely on the past workload history to predict the future workload
classes and their associated performance. KERMIT can identify and learn new
workload classes, and adapt to workload drift, without human intervention.
- Abstract(参考訳): apache sparkとhadoopをベースにしたビッグデータソフトウェアスタックは、多くの企業でミッションクリティカルになっています。
sparkとhadoopジョブのパフォーマンスは、多くの設定設定に依存する。
手動チューニングは高価で不安定です。
ビッグデータスタックが手動のチューニングに依存しないようにするために、オンラインおよびオフラインの自動チューニングアプローチを開発する努力がこれまであった。
しかし、これらは小さなデータセット上の非常に単純なシングルユーザーワークロードで、わずかなパフォーマンス改善しか示さなかった。
本稿では,apache spark と hadoop をオンラインで自動チューニングし,人間の管理者によるルールオブthumb チューニングよりも30%高速で,チューニングパラメータ空間を徹底的に探索することにより確立される,最大で92%の速度でチューニングを行う,ビッグデータの自動処理アーキテクチャである kermit を提案する。
KERMITは99%の精度で重要なワークロード変更を検出し、96%の精度で将来のワークロードタイプを予測することができる。
これらのワークロードの例を明示的にトレーニングすることなく、複雑なマルチユーザワークロードを特定して分類することができる。
将来のワークロードクラスとそのパフォーマンスを予測するために、過去のワークロード履歴に依存しない。
KERMITは新しいワークロードクラスを特定して学習し、人間の介入なしにワークロードのドリフトに適応できる。
関連論文リスト
- TAIA: Large Language Models are Out-of-Distribution Data Learners [30.57872423927015]
効果的な推論時間介入手法を提案する:全てのパラメータを訓練するが、注意のみで推論する(trainallInfAttn)。
trainallInfAttnは、ほとんどのシナリオで完全に調整されたモデルとベースモデルの両方と比較して、優れた改善を実現している。
trainallInfAttnのデータのミスマッチに対する高い耐性は、jailbreakのチューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
論文 参考訳(メタデータ) (2024-05-30T15:57:19Z) - LLMTune: Accelerate Database Knob Tuning with Large Language Models [24.874283707632173]
データベースのknobチューニングは、特定のワークロードにおけるデータベースパフォーマンスを向上させるために、knob値を最適化することを目的として、データベースコミュニティにおいて重要な課題である。
このプロセスを自動化するため、多くの機械学習ベースのチューニング手法が開発されている。
LLMTuneは大規模な言語モデルベースの構成生成器で、新しいワークロードの初期かつ高品質な設定を生成するように設計されている。
論文 参考訳(メタデータ) (2024-04-17T17:28:05Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Rover: An online Spark SQL tuning service via generalized transfer
learning [22.318112129975162]
本稿では,専門家支援ベイズ最適化や履歴伝達制御など,外部知識に基づくチューニング性能向上のための一般化された伝達学習を提案する。
Roverは1万1千の現実世界のSpark SQLタスクのメモリコストの50.1%を20イテレーションで節約し、そのうち76.2%が60%以上のメモリ削減を実現している。
論文 参考訳(メタデータ) (2023-02-08T13:36:19Z) - Benchmarking Apache Spark and Hadoop MapReduce on Big Data
Classification [3.42658286826597]
我々は、Apache SparkとHadoop MapReduceという2つの広く使われているビッグデータ分析ツールの共通データマイニングタスク、すなわち分類に関するベンチマークを提示する。
我々は、SparkがモデルのトレーニングにおいてMapReduceよりも5倍高速であることを示した。しかしながら、Sparkのパフォーマンスは、入力ワークロードが大きくなると低下する。
論文 参考訳(メタデータ) (2022-09-21T20:08:37Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。