論文の概要: Collage: Automated Integration of Deep Learning Backends
- arxiv url: http://arxiv.org/abs/2111.00655v1
- Date: Mon, 1 Nov 2021 02:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:02:19.334339
- Title: Collage: Automated Integration of Deep Learning Backends
- Title(参考訳): Collage: ディープラーニングバックエンドの自動統合
- Authors: Byungsoo Jeon, Sunghyun Park, Peiyuan Liao, Sheng Xu, Tianqi Chen,
Zhihao Jia
- Abstract要約: Collageはディープラーニングバックエンドを統合するためのフレームワークだ。
Collageは、特定のワークロードと実行環境に対して最適化されたバックエンド配置を検索する。
評価の結果,コラージュは手動の介入なしに複数のバックエンドを自動的に統合し,2つのNVIDIA GPUとIntel CPUで既存のフレームワークを1.21x,1.39x,1.40xで上回ります。
- 参考スコア(独自算出の注目度): 14.451974618020069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strong demands for efficient deployment of Deep Learning (DL) applications
prompt the rapid development of a rich DL ecosystem. To keep up with its fast
advancement, it is crucial for DL frameworks to efficiently integrate a variety
of optimized libraries and runtimes as their backends and generate the fastest
possible executable by using them properly. However, current DL frameworks
require significant manual effort to integrate diverse backends and often fail
to deliver high performance. In this paper, we propose Collage, an automatic
framework for integrating DL backends. Collage provides a backend registration
interface that allows users to precisely specify the capability of various
backends. By leveraging the specifications of available backends, Collage
searches for an optimized backend placement for a given workload and execution
environment. Our evaluation shows that Collage automatically integrates
multiple backends together without manual intervention, and outperforms
existing frameworks by 1.21x, 1.39x, 1.40x on two different NVIDIA GPUs and an
Intel CPU respectively.
- Abstract(参考訳): ディープラーニング(DL)アプリケーションの効率的なデプロイに対する強い要求は、リッチなDLエコシステムの迅速な開発を促す。
高速な進歩に追いつくためには、dlフレームワークが様々な最適化されたライブラリやランタイムをバックエンドとして効率的に統合し、それらを適切に使用することで、可能な限り高速な実行可能ファイルを生成することが不可欠である。
しかし、現在のdlフレームワークは多様なバックエンドを統合するためにかなりの手作業を必要とし、しばしば高いパフォーマンスを提供することができない。
本稿では,dlバックエンドを統合するための自動フレームワークであるcollageを提案する。
Collageは、ユーザがさまざまなバックエンドの機能を正確に指定できるバックエンド登録インターフェースを提供する。
Collageは利用可能なバックエンドの仕様を活用することで、特定のワークロードと実行環境に対して最適化されたバックエンド配置を検索する。
評価の結果,コラージュは手動の介入なしに複数のバックエンドを自動的に統合し,2つのNVIDIA GPUとIntel CPUで既存のフレームワークを1.21x,1.39x,1.40xで上回ります。
関連論文リスト
- ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and
DeepSpeed-Inference [23.49242865222089]
本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。
我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
論文 参考訳(メタデータ) (2024-01-09T06:49:40Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - OTOV2: Automatic, Generic, User-Friendly [39.828644638174225]
そこで本研究では,まず,一から1回だけ一般DNNを訓練・圧縮する「OTOv2」を提案する。
OTOv2は、さまざまなディープラーニングアプリケーションに自動でプラグイン可能であり、ユーザによるほとんど最小限のエンジニアリング作業を必要とする。
数値的には,VGG,ResNet,CARN,ConvNeXt,DenseNet,StackedUnetsなど,さまざまなモデルアーキテクチャ上でのOTOv2の汎用性と自律性を示す。
論文 参考訳(メタデータ) (2023-03-13T05:13:47Z) - DHA: End-to-End Joint Optimization of Data Augmentation Policy,
Hyper-parameter and Architecture [81.82173855071312]
本稿では,AutoMLコンポーネントを統合したエンドツーエンドソリューションを提案する。
Dhaは、様々なデータセット、特にセルベースの検索空間を持つImageNetの77.4%の精度で、最先端(SOTA)結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T08:12:50Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - InferBench: Understanding Deep Learning Inference Serving with an
Automatic Benchmarking System [15.473926972382241]
ディープラーニング(DL)開発者のための,自動かつ包括的なベンチマークシステムを実装した。
我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。
開発者はシステム内のさまざまな分析ツールやモデルを活用して、さまざまなシステム構成のトレードオフに関する洞察を得ることができます。
論文 参考訳(メタデータ) (2020-11-04T14:56:57Z) - The Deep Learning Compiler: A Comprehensive Survey [16.19025439622745]
我々は、広く採用されている設計を詳細に分離し、既存のDLコンパイラを網羅的に調査する。
具体的には、様々な側面から既存のDLコンパイラを総合的に比較する。
論文 参考訳(メタデータ) (2020-02-06T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。