論文の概要: Learn to Compress (LtC): Efficient Learning-based Streaming Video
Analytics
- arxiv url: http://arxiv.org/abs/2307.12171v2
- Date: Tue, 25 Jul 2023 22:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:05:11.550663
- Title: Learn to Compress (LtC): Efficient Learning-based Streaming Video
Analytics
- Title(参考訳): Learn to Compress (LtC): 効率的な学習ベースのストリーミングビデオ分析
- Authors: Quazi Mishkatul Alam, Israat Haque, Nael Abu-Ghazaleh
- Abstract要約: LtCは、ビデオソースと分析サーバの協調フレームワークで、分析パイプライン内のビデオストリームの削減を効率的に学習する。
LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較して最大45%のレスポンス遅延がある。
- 参考スコア(独自算出の注目度): 3.2872586139884623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video analytics are often performed as cloud services in edge settings,
mainly to offload computation, and also in situations where the results are not
directly consumed at the video sensors. Sending high-quality video data from
the edge devices can be expensive both in terms of bandwidth and power use. In
order to build a streaming video analytics pipeline that makes efficient use of
these resources, it is therefore imperative to reduce the size of the video
stream. Traditional video compression algorithms are unaware of the semantics
of the video, and can be both inefficient and harmful for the analytics
performance. In this paper, we introduce LtC, a collaborative framework between
the video source and the analytics server, that efficiently learns to reduce
the video streams within an analytics pipeline. Specifically, LtC uses the
full-fledged analytics algorithm at the server as a teacher to train a
lightweight student neural network, which is then deployed at the video source.
The student network is trained to comprehend the semantic significance of
various regions within the videos, which is used to differentially preserve the
crucial regions in high quality while the remaining regions undergo aggressive
compression. Furthermore, LtC also incorporates a novel temporal filtering
algorithm based on feature-differencing to omit transmitting frames that do not
contribute new information. Overall, LtC is able to use 28-35% less bandwidth
and has up to 45% shorter response delay compared to recently published state
of the art streaming frameworks while achieving similar analytics performance.
- Abstract(参考訳): ビデオ分析は、主にオフロード計算や、ビデオセンサーで直接消費されない状況において、エッジ設定のクラウドサービスとして実行されることが多い。
エッジデバイスから高品質なビデオデータを送信することは、帯域幅と電力使用の両方でコストがかかる。
これらのリソースを効率的に利用するストリーミングビデオ分析パイプラインを構築するためには、ビデオストリームのサイズを減らすことが不可欠である。
従来のビデオ圧縮アルゴリズムは、ビデオの意味を知らないため、分析性能に非効率かつ有害である可能性がある。
本稿では,ビデオソースと分析サーバの協調的なフレームワークであるLtCを紹介する。
特に、ltcは、教師としてサーバーの本格的な分析アルゴリズムを使用して、軽量な学生ニューラルネットワークをトレーニングし、ビデオソースにデプロイする。
学生ネットワークは、ビデオ内の様々な領域の意味的意義を理解するように訓練され、残りの領域が攻撃的な圧縮を受ける間、重要な領域を高品質に保存するために使用される。
さらに、LtCは、新しい情報を提供しない送信フレームを省略するために、特徴差に基づく新しい時間フィルタリングアルゴリズムも組み込んでいる。
全体として、LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較すると、レスポンス遅延が最大で45%短い。
関連論文リスト
- STAC: Leveraging Spatio-Temporal Data Associations For Efficient
Cross-Camera Streaming and Analytics [0.0]
本稿では,制約されたネットワーク環境下でのリアルタイム解析と推論を実現する,効率的なクロスカメラ監視システムを提案する。
ストリーム特性に対するフレームフィルタリングと最先端圧縮をSTACと統合する。
本研究では,このデータセットを用いてSTAの性能評価を行い,完全性評価のための精度指標と推論率を測定した。
論文 参考訳(メタデータ) (2024-01-27T04:02:52Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - AccDecoder: Accelerated Decoding for Neural-enhanced Video Analytics [26.012783785622073]
低画質のビデオは、品質の悪いカメラや、過度に圧縮/切断されたビデオストリーミングプロトコルのために、既存の監視システムによって収集される。
AccDecoderは、リアルタイムおよびニューラルネットワークベースのビデオ分析のための新しいアクセラレーションデコーダである。
論文 参考訳(メタデータ) (2023-01-20T16:30:44Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Turbo: Opportunistic Enhancement for Edge Video Analytics [15.528497833853146]
本稿では,非決定論的および断片的アイドルGPU資源を用いたオポチュニティデータ拡張問題について検討する。
本稿では,タスク固有の識別・拡張モジュールと,モデル対応の対人訓練機構を提案する。
我々のシステムは、遅延コストを発生させることなく、オブジェクト検出の精度を7.3~11.3%向上させる。
論文 参考訳(メタデータ) (2022-06-29T12:13:30Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。