Fugu-MT 論文翻訳(概要): GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at the Edge

論文の概要: GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at the Edge

arxiv url: http://arxiv.org/abs/2201.07705v1
Date: Wed, 19 Jan 2022 16:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-20 14:39:02.692566
Title: GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at the Edge
Title（参考訳）: GEMEL:エッジでのメモリ効率の良いリアルタイムビデオ分析のためのモデルマージ
Authors: Arthi Padmanabhan, Neil Agarwal, Anand Iyer, Ganesh Ananthanarayanan, Yuanchao Shu, Nikolaos Karianakis, Guoqing Harry Xu, Ravi Netravali
Abstract要約: エッジビジョンモデル間のアーキテクチャ的類似性を利用した新しいメモリ管理手法であるモデルマージを提案する。多様なワークロードに対する実験により、GEMELはメモリ使用量を最大60.7%削減し、時間/空間の共有のみと比較して、全体的な精度を8～39%向上することが明らかになった。
参考スコア（独自算出の注目度）: 10.276140547573437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video analytics pipelines have steadily shifted to edge deployments to reduce bandwidth overheads and privacy violations, but in doing so, face an ever-growing resource tension. Most notably, edge-box GPUs lack the memory needed to concurrently house the growing number of (increasingly complex) models for real-time inference. Unfortunately, existing solutions that rely on time/space sharing of GPU resources are insufficient as the required swapping delays result in unacceptable frame drops and accuracy violations. We present model merging, a new memory management technique that exploits architectural similarities between edge vision models by judiciously sharing their layers (including weights) to reduce workload memory costs and swapping delays. Our system, GEMEL, efficiently integrates merging into existing pipelines by (1) leveraging several guiding observations about per-model memory usage and inter-layer dependencies to quickly identify fruitful and accuracy-preserving merging configurations, and (2) altering edge inference schedules to maximize merging benefits. Experiments across diverse workloads reveal that GEMEL reduces memory usage by up to 60.7%, and improves overall accuracy by 8-39% relative to time/space sharing alone.
Abstract（参考訳）: ビデオ分析のパイプラインは、帯域幅のオーバーヘッドとプライバシ侵害を減らすために、エッジデプロイメントに着実に移行してきた。最も注目すべきは、エッジボックスGPUは、リアルタイム推論のために増加する(複雑化する)モデルを同時に格納するために必要なメモリを欠いていることだ。残念ながら、GPUリソースの時間/空間共有に依存する既存のソリューションは、必要なスワップ遅延が許容できないフレームドロップと精度違反をもたらすため不十分である。本稿では,エッジビジョンモデル間のアーキテクチャ的類似性を利用した新たなメモリ管理手法であるモデルマージを提案する。本システムであるGEMELは,(1)モデル単位のメモリ使用量と層間依存関係に関するいくつかの指針的観察を活用して,実効性と精度の高いマージ構成を迅速に同定し,(2)エッジ推論スケジュールを変更してマージメリットを最大化する。さまざまなワークロードを対象とした実験の結果、gemelはメモリ使用量を最大60.7%削減し、時間/空間の共有だけで全体の精度を8～39%向上させることがわかった。

関連論文リスト

mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文参考訳（メタデータ） (2025-07-02T15:44:35Z)
HoliTom: Holistic Token Merging for Fast Video Large Language Models [26.78285189552602]
ビデオ言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。 HoliTomは、新しいトレーニング不要な全体的トークンフレームワークである。また,内部LLMトークンの類似性に基づくマージ手法を導入する。
論文参考訳（メタデータ） (2025-05-27T15:28:45Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。 TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。 TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文参考訳（メタデータ） (2024-10-01T09:18:56Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文参考訳（メタデータ） (2024-03-17T23:02:04Z)
LR-CNN: Lightweight Row-centric Convolutional Neural Network Training for Memory Reduction [21.388549904063538]
多層構造を持つ畳み込みニューラルネットワークは急速に進歩している。現在の取り組みは、追加のハードウェアコストによる外部補助ソリューションによるボトルネックの緩和と、潜在的な精度のペナルティによる内部修正によって緩和されている。従来のレイヤ・バイ・レイヤ(カラム)データフロールールを破ります。現在では,すべての畳み込みレイヤを通じて,新たな操作が行に再編成されています。この軽量な設計により、ほとんどの中間データを精度を損なうことなく取り除くことができる。
論文参考訳（メタデータ） (2024-01-21T12:19:13Z)
MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文参考訳（メタデータ） (2021-07-14T19:45:49Z)
Temporal Memory Relation Network for Workflow Recognition from Surgical Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文参考訳（メタデータ） (2021-03-30T13:20:26Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。