論文の概要: GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at
the Edge
- arxiv url: http://arxiv.org/abs/2201.07705v1
- Date: Wed, 19 Jan 2022 16:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:39:02.692566
- Title: GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at
the Edge
- Title(参考訳): GEMEL:エッジでのメモリ効率の良いリアルタイムビデオ分析のためのモデルマージ
- Authors: Arthi Padmanabhan, Neil Agarwal, Anand Iyer, Ganesh Ananthanarayanan,
Yuanchao Shu, Nikolaos Karianakis, Guoqing Harry Xu, Ravi Netravali
- Abstract要約: エッジビジョンモデル間のアーキテクチャ的類似性を利用した新しいメモリ管理手法であるモデルマージを提案する。
多様なワークロードに対する実験により、GEMELはメモリ使用量を最大60.7%削減し、時間/空間の共有のみと比較して、全体的な精度を8~39%向上することが明らかになった。
- 参考スコア(独自算出の注目度): 10.276140547573437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video analytics pipelines have steadily shifted to edge deployments to reduce
bandwidth overheads and privacy violations, but in doing so, face an
ever-growing resource tension. Most notably, edge-box GPUs lack the memory
needed to concurrently house the growing number of (increasingly complex)
models for real-time inference. Unfortunately, existing solutions that rely on
time/space sharing of GPU resources are insufficient as the required swapping
delays result in unacceptable frame drops and accuracy violations. We present
model merging, a new memory management technique that exploits architectural
similarities between edge vision models by judiciously sharing their layers
(including weights) to reduce workload memory costs and swapping delays. Our
system, GEMEL, efficiently integrates merging into existing pipelines by (1)
leveraging several guiding observations about per-model memory usage and
inter-layer dependencies to quickly identify fruitful and accuracy-preserving
merging configurations, and (2) altering edge inference schedules to maximize
merging benefits. Experiments across diverse workloads reveal that GEMEL
reduces memory usage by up to 60.7%, and improves overall accuracy by 8-39%
relative to time/space sharing alone.
- Abstract(参考訳): ビデオ分析のパイプラインは、帯域幅のオーバーヘッドとプライバシ侵害を減らすために、エッジデプロイメントに着実に移行してきた。
最も注目すべきは、エッジボックスGPUは、リアルタイム推論のために増加する(複雑化する)モデルを同時に格納するために必要なメモリを欠いていることだ。
残念ながら、GPUリソースの時間/空間共有に依存する既存のソリューションは、必要なスワップ遅延が許容できないフレームドロップと精度違反をもたらすため不十分である。
本稿では,エッジビジョンモデル間のアーキテクチャ的類似性を利用した新たなメモリ管理手法であるモデルマージを提案する。
本システムであるGEMELは,(1)モデル単位のメモリ使用量と層間依存関係に関するいくつかの指針的観察を活用して,実効性と精度の高いマージ構成を迅速に同定し,(2)エッジ推論スケジュールを変更してマージメリットを最大化する。
さまざまなワークロードを対象とした実験の結果、gemelはメモリ使用量を最大60.7%削減し、時間/空間の共有だけで全体の精度を8~39%向上させることがわかった。
関連論文リスト
- LR-CNN: Lightweight Row-centric Convolutional Neural Network Training
for Memory Reduction [21.388549904063538]
多層構造を持つ畳み込みニューラルネットワークは急速に進歩している。
現在の取り組みは、追加のハードウェアコストによる外部補助ソリューションによるボトルネックの緩和と、潜在的な精度のペナルティによる内部修正によって緩和されている。
従来のレイヤ・バイ・レイヤ(カラム)データフロールールを破ります。現在では,すべての畳み込みレイヤを通じて,新たな操作が行に再編成されています。
この軽量な設計により、ほとんどの中間データを精度を損なうことなく取り除くことができる。
論文 参考訳(メタデータ) (2024-01-21T12:19:13Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - TALLFormer: Temporal Action Localization with Long-memory Transformer [16.208160001820044]
TALLFormerは、メモリ効率とエンドツーエンドのトレーニング可能な時間的動作ローカライゼーショントランスフォーマーである。
私たちの長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくします。
RGBフレームのみを入力として、TALLFormerは従来の最先端メソッドよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-04-04T17:51:20Z) - Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with
Low GPU Memory Requirements [8.967700713755281]
本研究では,SpatialConfiguration-Net(SCN)に基づくマルチ組織セグメンテーションモデルを用いる。
セグメンテーションモデルのアーキテクチャを改良し,メモリフットプリントの削減を図った。
最後に、我々は最小限の推論スクリプトを実装し、実行時間と必要なGPUメモリの両方を最適化した。
論文 参考訳(メタデータ) (2021-11-26T17:47:10Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。