論文の概要: Applying the Roofline model for Deep Learning performance optimizations
- arxiv url: http://arxiv.org/abs/2009.11224v1
- Date: Wed, 23 Sep 2020 15:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:47:04.416013
- Title: Applying the Roofline model for Deep Learning performance optimizations
- Title(参考訳): ディープラーニング性能最適化のためのRooflineモデルの適用
- Authors: Jacek Czaja, Michal Gallus, Joanna Wozna, Adam Grygielski, Luo Tao
- Abstract要約: 本稿では,Intel Xeon を例として,Non-Unified Memory Access (NUMA) 用の Roofline モデルの自動作成手法を提案する。
また,Intel oneDNNライブラリに実装された高能率深層学習プリミティブの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper We present a methodology for creating Roofline models
automatically for Non-Unified Memory Access (NUMA) using Intel Xeon as an
example. Finally, we present an evaluation of highly efficient deep learning
primitives as implemented in the Intel oneDNN Library.
- Abstract(参考訳): 本稿では,Intel Xeon を例として,Non-Unified Memory Access (NUMA) 用の Roofline モデルの自動作成手法を提案する。
最後に,Intel oneDNNライブラリに実装された高効率深層学習プリミティブの評価について述べる。
関連論文リスト
- Efficient Ternary Weight Embedding Model: Bridging Scalability and Performance [15.877771709013743]
本研究では,3次重み付き埋め込みモデルのためのファインタニングフレームワークを提案する。
プレトレーニング埋込みモデルに三元化を適用するため, 線形層の三元重みを確定するために, 自己学習型知識蒸留を導入する。
パブリックテキストとビジョンデータセットに関する広範な実験により、テナライズされたモデルは、有効性を犠牲にすることなく、低メモリ使用量を消費することを示した。
論文 参考訳(メタデータ) (2024-11-23T03:44:56Z) - Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Towards a learning-based performance modeling for accelerating Deep
Neural Networks [1.1549572298362785]
我々は、畳み込みニューラルネットワーク(CNN)を最適化するために、機械学習技術に基づく予測モデルの調査を開始する。
MidgardベースのARM Mali GPUの予備実験では、我々の予測モデルはライブラリが手作業で選択したすべての畳み込み演算子よりも優れていた。
論文 参考訳(メタデータ) (2022-12-09T18:28:07Z) - Towards using Few-Shot Prompt Learning for Automating Model Completion [0.0]
本稿では、ドメインモデリング活動の完了を改善するための、シンプルながら新しいアプローチを提案する。
我々のアプローチは、これらのモデルの訓練や微調整を必要とせずに、数発のプロンプト学習を使用することで、大きな言語モデルのパワーを活用できる。
論文 参考訳(メタデータ) (2022-12-07T02:11:26Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Cortex: A Compiler for Recursive Deep Learning Models [12.307249556836375]
ディープラーニングモデルのための高効率コードを生成するコンパイラベースのアプローチであるCortexを提案する。
当社のコンパイラアプローチとベンダライブラリへの依存度が低いことで、エンドツーエンドの最適化が可能になりました。
論文 参考訳(メタデータ) (2020-11-02T23:35:14Z) - Hierarchical Roofline Performance Analysis for Deep Learning
Applications [0.06999740786886534]
本稿では、NVIDIA GPU上で階層的なロホライン解析を行うために必要な性能データを収集する実用的な手法を提案する。
実験的なRoofline Toolkitの拡張について論じ、さまざまなデータ精度の幅広いサポートとコアサポートについて論じ、アプリケーションパフォーマンス情報を正確に収集するNsight Computeベースの方法を紹介した。
論文 参考訳(メタデータ) (2020-09-11T07:16:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。