Fugu-MT 論文翻訳(概要): Collage: Automated Integration of Deep Learning Backends

論文の概要: Collage: Automated Integration of Deep Learning Backends

arxiv url: http://arxiv.org/abs/2111.00655v1
Date: Mon, 1 Nov 2021 02:01:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-02 14:02:19.334339
Title: Collage: Automated Integration of Deep Learning Backends
Title（参考訳）: Collage: ディープラーニングバックエンドの自動統合
Authors: Byungsoo Jeon, Sunghyun Park, Peiyuan Liao, Sheng Xu, Tianqi Chen, Zhihao Jia
Abstract要約: Collageはディープラーニングバックエンドを統合するためのフレームワークだ。 Collageは、特定のワークロードと実行環境に対して最適化されたバックエンド配置を検索する。評価の結果,コラージュは手動の介入なしに複数のバックエンドを自動的に統合し,2つのNVIDIA GPUとIntel CPUで既存のフレームワークを1.21x,1.39x,1.40xで上回ります。
参考スコア（独自算出の注目度）: 14.451974618020069
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Strong demands for efficient deployment of Deep Learning (DL) applications prompt the rapid development of a rich DL ecosystem. To keep up with its fast advancement, it is crucial for DL frameworks to efficiently integrate a variety of optimized libraries and runtimes as their backends and generate the fastest possible executable by using them properly. However, current DL frameworks require significant manual effort to integrate diverse backends and often fail to deliver high performance. In this paper, we propose Collage, an automatic framework for integrating DL backends. Collage provides a backend registration interface that allows users to precisely specify the capability of various backends. By leveraging the specifications of available backends, Collage searches for an optimized backend placement for a given workload and execution environment. Our evaluation shows that Collage automatically integrates multiple backends together without manual intervention, and outperforms existing frameworks by 1.21x, 1.39x, 1.40x on two different NVIDIA GPUs and an Intel CPU respectively.
Abstract（参考訳）: ディープラーニング(DL)アプリケーションの効率的なデプロイに対する強い要求は、リッチなDLエコシステムの迅速な開発を促す。高速な進歩に追いつくためには、dlフレームワークが様々な最適化されたライブラリやランタイムをバックエンドとして効率的に統合し、それらを適切に使用することで、可能な限り高速な実行可能ファイルを生成することが不可欠である。しかし、現在のdlフレームワークは多様なバックエンドを統合するためにかなりの手作業を必要とし、しばしば高いパフォーマンスを提供することができない。本稿では,dlバックエンドを統合するための自動フレームワークであるcollageを提案する。 Collageは、ユーザがさまざまなバックエンドの機能を正確に指定できるバックエンド登録インターフェースを提供する。 Collageは利用可能なバックエンドの仕様を活用することで、特定のワークロードと実行環境に対して最適化されたバックエンド配置を検索する。評価の結果,コラージュは手動の介入なしに複数のバックエンドを自動的に統合し,2つのNVIDIA GPUとIntel CPUで既存のフレームワークを1.21x,1.39x,1.40xで上回ります。

関連論文リスト

MSCCL++: Rethinking GPU Communication Abstractions for Cutting-edge AI Applications [9.28608047116196]
最新の最先端AIアプリケーションは、急速に進化し、異質で誕生したハードウェアデバイス上で開発されている。これは、新しいハードウェアからボトムアップの変更を採用するために、AIソフトウェアスタックの頻繁な再作業を必要とする。分離問題に基づくGPU通信の新たな抽象化であるMSCCL++を提案する。
論文参考訳（メタデータ） (2025-04-11T23:51:54Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference [23.49242865222089]
本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
論文参考訳（メタデータ） (2024-01-09T06:49:40Z)
RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文参考訳（メタデータ） (2023-10-02T17:16:26Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
OTOV2: Automatic, Generic, User-Friendly [39.828644638174225]
そこで本研究では,まず,一から1回だけ一般DNNを訓練・圧縮する「OTOv2」を提案する。 OTOv2は、さまざまなディープラーニングアプリケーションに自動でプラグイン可能であり、ユーザによるほとんど最小限のエンジニアリング作業を必要とする。数値的には,VGG,ResNet,CARN,ConvNeXt,DenseNet,StackedUnetsなど,さまざまなモデルアーキテクチャ上でのOTOv2の汎用性と自律性を示す。
論文参考訳（メタデータ） (2023-03-13T05:13:47Z)
DHA: End-to-End Joint Optimization of Data Augmentation Policy, Hyper-parameter and Architecture [81.82173855071312]
本稿では,AutoMLコンポーネントを統合したエンドツーエンドソリューションを提案する。 Dhaは、様々なデータセット、特にセルベースの検索空間を持つImageNetの77.4%の精度で、最先端(SOTA)結果を達成する。
論文参考訳（メタデータ） (2021-09-13T08:12:50Z)
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文参考訳（メタデータ） (2021-03-22T15:08:06Z)
InferBench: Understanding Deep Learning Inference Serving with an Automatic Benchmarking System [15.473926972382241]
ディープラーニング(DL)開発者のための,自動かつ包括的なベンチマークシステムを実装した。我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。開発者はシステム内のさまざまな分析ツールやモデルを活用して、さまざまなシステム構成のトレードオフに関する洞察を得ることができます。
論文参考訳（メタデータ） (2020-11-04T14:56:57Z)
The Deep Learning Compiler: A Comprehensive Survey [16.19025439622745]
我々は、広く採用されている設計を詳細に分離し、既存のDLコンパイラを網羅的に調査する。具体的には、様々な側面から既存のDLコンパイラを総合的に比較する。
論文参考訳（メタデータ） (2020-02-06T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。