論文の概要: DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy
- arxiv url: http://arxiv.org/abs/2410.18400v1
- Date: Thu, 24 Oct 2024 03:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:48:50.992742
- Title: DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy
- Title(参考訳): DMVC:ディープラーニングの精度向上を目的としたマルチカメラビデオ圧縮ネットワーク
- Authors: Huan Cui, Qing Li, Hanling Wang, Yong jiang,
- Abstract要約: ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
- 参考スコア(独自算出の注目度): 22.871591373774802
- License:
- Abstract: We introduce a cutting-edge video compression framework tailored for the age of ubiquitous video data, uniquely designed to serve machine learning applications. Unlike traditional compression methods that prioritize human visual perception, our innovative approach focuses on preserving semantic information critical for deep learning accuracy, while efficiently reducing data size. The framework operates on a batch basis, capable of handling multiple video streams simultaneously, thereby enhancing scalability and processing efficiency. It features a dual reconstruction mode: lightweight for real-time applications requiring swift responses, and high-precision for scenarios where accuracy is crucial. Based on a designed deep learning algorithms, it adeptly segregates essential information from redundancy, ensuring machine learning tasks are fed with data of the highest relevance. Our experimental results, derived from diverse datasets including urban surveillance and autonomous vehicle navigation, showcase DMVC's superiority in maintaining or improving machine learning task accuracy, while achieving significant data compression. This breakthrough paves the way for smarter, scalable video analysis systems, promising immense potential across various applications from smart city infrastructure to autonomous systems, establishing a new benchmark for integrating video compression with machine learning.
- Abstract(参考訳): 本稿では,ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
このフレームワークはバッチベースで動作し、複数のビデオストリームを同時に処理できるため、スケーラビリティと処理効率が向上する。
高速応答を必要とするリアルタイムアプリケーションでは軽量で、精度が重要なシナリオでは高精度である。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
都会の監視や自動運転車のナビゲーションなどの多様なデータセットから得られた実験結果は、DMVCが機械学習タスクの精度を維持または改善し、重要なデータ圧縮を実現していることを示す。
このブレークスルーは、スマートでスケーラブルなビデオ分析システムへの道を開くもので、スマートシティインフラストラクチャーから自律システムまで、さまざまなアプリケーションにまたがる潜在能力を約束し、ビデオ圧縮と機械学習を統合するための新しいベンチマークを確立する。
関連論文リスト
- Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Treasure What You Have: Exploiting Similarity in Deep Neural Networks
for Efficient Video Processing [1.5749416770494706]
本稿では,ビデオフレームにおけるデータ冗長性を利用した類似性認識学習手法を提案する。
本手法は,車線検出とシーン解析という2つの重要なリアルタイムアプリケーション上で検証する。
論文 参考訳(メタデータ) (2023-05-10T23:18:47Z) - A Survey of Task-Based Machine Learning Content Extraction Services for
VIDINT [0.0]
ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。
ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、組織にとって急速に重要になっている。
本稿では、ビデオから情報を取り出すタスクと機械学習技術に基づいて、製品、ソフトウェアリソース、ビデオ分析機能をレビューし、比較する。
論文 参考訳(メタデータ) (2022-07-09T00:02:08Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Towards Transparent Application of Machine Learning in Video Processing [3.491870689686827]
ディープラーニングのブレークスルーにより、より効率的なビデオ圧縮とビデオ強化のための機械学習技術が開発されている。
新しいテクニックは、典型的には、リソースを消費するブラックボックス(内部の作業に関する透明性がほとんどない、過度に複雑である)の形で現れる。
本研究の目的は,ビデオ処理アプリケーションにおける学習モデルの理解と最適化である。
論文 参考訳(メタデータ) (2021-05-26T17:24:23Z) - Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain [1.9214041945441434]
深層学習は、ビデオの中の人間の行動を認識するために強力で解釈可能な機能を学ぶのに成功している。
既存のディープラーニングアプローチのほとんどは、RGBイメージシーケンスとしてビデオ情報を処理するように設計されている。
本稿では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-26T12:43:53Z) - Detecting Deepfakes with Metric Learning [9.94524884861004]
高圧縮シナリオにおけるディープフェイクス分類の文脈における深層学習アプローチについて分析する。
このような分類を行う上で,計量学習に基づく提案手法が極めて有効であることを示す。
当社のアプローチは,データ圧縮が避けられないソーシャルメディアプラットフォームにおいて特に有用である。
論文 参考訳(メタデータ) (2020-03-19T09:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。