論文の概要: Treasure What You Have: Exploiting Similarity in Deep Neural Networks
for Efficient Video Processing
- arxiv url: http://arxiv.org/abs/2305.06492v1
- Date: Wed, 10 May 2023 23:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:26:35.126698
- Title: Treasure What You Have: Exploiting Similarity in Deep Neural Networks
for Efficient Video Processing
- Title(参考訳): 宝物:ディープニューラルネットワークの類似性を利用した効率的なビデオ処理
- Authors: Hadjer Benmeziane, Halima Bouzidi, Hamza Ouarnoughi, Ozcan Ozturk and
Smail Niar
- Abstract要約: 本稿では,ビデオフレームにおけるデータ冗長性を利用した類似性認識学習手法を提案する。
本手法は,車線検出とシーン解析という2つの重要なリアルタイムアプリケーション上で検証する。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has enabled various Internet of Things (IoT) applications.
Still, designing models with high accuracy and computational efficiency remains
a significant challenge, especially in real-time video processing applications.
Such applications exhibit high inter- and intra-frame redundancy, allowing
further improvement. This paper proposes a similarity-aware training
methodology that exploits data redundancy in video frames for efficient
processing. Our approach introduces a per-layer regularization that enhances
computation reuse by increasing the similarity of weights during training. We
validate our methodology on two critical real-time applications, lane detection
and scene parsing. We observe an average compression ratio of approximately 50%
and a speedup of \sim 1.5x for different models while maintaining the same
accuracy.
- Abstract(参考訳): ディープラーニングによって、さまざまなモノのインターネット(IoT)アプリケーションが実現された。
それでも、特にリアルタイムビデオ処理アプリケーションにおいて、高精度で計算効率の高いモデルの設計は重要な課題である。
このような応用はフレーム間の高い冗長性を示し、さらなる改善を可能にする。
本稿では,ビデオフレームにおけるデータ冗長性を利用した類似性認識学習手法を提案する。
本手法では, トレーニング時の重みの類似性を高めることにより, 計算再利用の促進を図る。
本手法は,車線検出とシーン解析という2つの重要なリアルタイムアプリケーション上で検証する。
同じ精度を維持しながら,各モデルの平均圧縮比が約50%,速度アップが0sim 1.5xであった。
関連論文リスト
- DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy [22.871591373774802]
ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
論文 参考訳(メタデータ) (2024-10-24T03:29:57Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。
我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文 参考訳(メタデータ) (2021-08-23T20:23:57Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Multi-Task Network Pruning and Embedded Optimization for Real-time
Deployment in ADAS [0.0]
カメラベースのディープラーニングアルゴリズムは、自動運転システムにおける認識にますます必要である。
自動車業界からの制約は、限られた計算リソースで組み込みシステムを課すことでCNNの展開に挑戦します。
商用プロトタイププラットフォーム上で,このような条件下でマルチタスクCNNネットワークを埋め込む手法を提案する。
論文 参考訳(メタデータ) (2021-01-19T19:29:38Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。