Fugu-MT 論文翻訳(概要): SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity

論文の概要: SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity

arxiv url: http://arxiv.org/abs/2410.20790v1
Date: Mon, 28 Oct 2024 07:13:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.194258
Title: SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity
Title（参考訳）: SparseTem: 時間継続の爆発によるCNNビデオエンコーダの効率向上
Authors: Kunyun Wang, Jieru Zhao, Shuo Yang, Wenchao Ding, Minyi Guo,
Abstract要約: 本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
参考スコア（独自算出の注目度）: 15.872209884833977
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning models have become pivotal in the field of video processing and is increasingly critical in practical applications such as autonomous driving and object detection. Although Vision Transformers (ViTs) have demonstrated their power, Convolutional Neural Networks (CNNs) remain a highly efficient and high-performance choice for feature extraction and encoding. However, the intensive computational demands of convolution operations hinder its broader adoption as a video encoder. Given the inherent temporal continuity in video frames, changes between consecutive frames are minimal, allowing for the skipping of redundant computations. This technique, which we term as Diff Computation, presents two primary challenges. First, Diff Computation requires to cache intermediate feature maps to ensure the correctness of non-linear computations, leading to significant memory consumption. Second, the imbalance of sparsity among layers, introduced by Diff Computation, incurs accuracy degradation. To address these issues, we propose a memory-efficient scheduling method to eliminate memory overhead and an online adjustment mechanism to minimize accuracy degradation. We integrate these techniques into our framework, SparseTem, to seamlessly support various CNN-based video encoders. SparseTem achieves speedup of 1.79x for EfficientDet and 4.72x for CRNN, with minimal accuracy drop and no additional memory overhead. Extensive experimental results demonstrate that SparseTem sets a new state-of-the-art by effectively utilizing temporal continuity to accelerate CNN-based video encoders.
Abstract（参考訳）: ディープラーニングモデルは、ビデオ処理の分野で重要な存在となり、自律運転や物体検出といった実践的応用においてますます重要になっている。 ViT(Vision Transformers)はその能力を示したが、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)は、特徴抽出と符号化において、高効率で高性能な選択肢である。しかし、畳み込み演算の集約的な計算要求は、ビデオエンコーダとして広く採用されるのを妨げている。ビデオフレームの時間的連続性を考えると、連続するフレーム間の変化は最小限であり、冗長な計算をスキップすることができる。この手法はDiff Computationと呼ばれ、主に2つの課題を提起する。まず、Diff Computationは中間機能マップをキャッシュして非線形計算の正しさを保証し、メモリ消費を大幅に増加させる。第二に、Diff Computationによって導入された層間の間隔の不均衡は、精度の劣化を引き起こす。これらの問題に対処するため,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。我々はこれらの技術をフレームワークであるSparseTemに統合し、様々なCNNベースのビデオエンコーダをシームレスにサポートする。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。 SparseTemは時間的連続性を有効利用してCNNベースのビデオエンコーダを高速化することにより,新たな最先端技術を構築する。

関連論文リスト

Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization [27.97760974010369]
本稿では,特徴量間の距離を歪み指標として,タスク損失に対する圧縮の影響を低減する手法を提案する。我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。 SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートを節約できる。
論文参考訳（メタデータ） (2025-04-03T02:11:26Z)
VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。 VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文参考訳（メタデータ） (2025-03-12T13:30:40Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文参考訳（メタデータ） (2025-01-21T15:36:08Z)
Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文参考訳（メタデータ） (2024-08-04T13:23:18Z)
Binarized Low-light Raw Video Enhancement [49.65466843856074]
ディープニューラルネットワークは、低照度生ビデオの強化において優れたパフォーマンスを実現している。本稿では,低照度生ビデオエンハンスメントに超コンパクトなバイナリニューラルネットワーク(BNN)を適用する可能性について検討する。
論文参考訳（メタデータ） (2024-03-29T02:55:07Z)
Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-28T08:32:19Z)
Dynamic Semantic Compression for CNN Inference in Multi-access Edge Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文参考訳（メタデータ） (2024-01-19T15:19:47Z)
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文参考訳（メタデータ） (2023-05-22T07:47:27Z)
EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging [6.8372546605486555]
圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドのディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示す。提案手法は,従来のSOTAアルゴリズムよりも性能が優れ,リアルタイム性能が向上した。
論文参考訳（メタデータ） (2023-05-17T07:28:46Z)
ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-23T17:58:05Z)
DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in Videos [16.644938608211202]
ビデオデータ上の畳み込みニューラルネットワーク推論は、リアルタイム処理に強力なハードウェアを必要とする。スパースフレーム・バイ・フレーム更新を可能にするスパース畳み込みニューラルネットワークフレームワークを提案する。我々は,厳密な参照であるcuDNNを,精度の限界差のみで最大7倍のスピードアップを達成するために,初めて性能を向上した。
論文参考訳（メタデータ） (2022-03-08T10:54:00Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)
Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文参考訳（メタデータ） (2021-03-28T22:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。