論文の概要: VA-RED$^2$: Video Adaptive Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2102.07887v1
- Date: Mon, 15 Feb 2021 22:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:05:17.296905
- Title: VA-RED$^2$: Video Adaptive Redundancy Reduction
- Title(参考訳): VA-RED$^2$:ビデオ適応冗長化
- Authors: Bowen Pan, Rameswar Panda, Camilo Fosco, Chung-Ching Lin, Alex
Andonian, Yue Meng, Kate Saenko, Aude Oliva, Rogerio Feris
- Abstract要約: 我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
- 参考スコア(独自算出の注目度): 64.75692128294175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing inference on deep learning models for videos remains a challenge
due to the large amount of computational resources required to achieve robust
recognition. An inherent property of real-world videos is the high correlation
of information across frames which can translate into redundancy in either
temporal or spatial feature maps of the models, or both. The type of redundant
features depends on the dynamics and type of events in the video: static videos
have more temporal redundancy while videos focusing on objects tend to have
more channel redundancy. Here we present a redundancy reduction framework,
termed VA-RED$^2$, which is input-dependent. Specifically, our VA-RED$^2$
framework uses an input-dependent policy to decide how many features need to be
computed for temporal and channel dimensions. To keep the capacity of the
original model, after fully computing the necessary features, we reconstruct
the remaining redundant features from those using cheap linear operations. We
learn the adaptive policy jointly with the network weights in a differentiable
way with a shared-weight mechanism, making it highly efficient. Extensive
experiments on multiple video datasets and different visual tasks show that our
framework achieves $20\% - 40\%$ reduction in computation (FLOPs) when compared
to state-of-the-art methods without any performance loss. Project page:
http://people.csail.mit.edu/bpan/va-red/.
- Abstract(参考訳): ビデオの深層学習モデルに対する推論は、ロバストな認識を実現するのに必要な大量の計算資源のため、依然として課題である。
実世界のビデオの固有の特性は、フレーム間の情報の高い相関であり、モデルの時間的または空間的特徴マップの冗長性に変換できる。
静的ビデオは時間的冗長度が高いのに対して、オブジェクトに焦点を当てたビデオはチャネルの冗長度が高い傾向があります。
ここでは,入力に依存した冗長性低減フレームワークva-red$^2$を提案する。
具体的には、VA-RED$^2$フレームワークは、入力依存ポリシーを使用して、時間的およびチャネル寸法で計算される機能の数を決定します。
元のモデルのキャパシティを維持するため、必要な機能をフルに計算した後、安価な線形演算を用いて残余の機能を再構築する。
我々は,ネットワーク重みと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習し,高効率化を図る。
複数のビデオデータセットと異なる視覚的タスクに関する広範な実験は、パフォーマンスの損失のない最先端の方法と比較して、私たちのフレームワークが計算(FLOP)の$ 20\% - 40\%$削減を達成することを示しています。
プロジェクトページ: http://people.csail.mit.edu/bpan/va-red/
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - $R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding [41.69321731689751]
ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。
既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-03-31T21:17:48Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - A Codec Information Assisted Framework for Efficient Compressed Video
Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。
圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文 参考訳(メタデータ) (2022-10-15T08:48:29Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - TAda! Temporally-Adaptive Convolutions for Video Understanding [17.24510667917993]
時間次元に沿った適応的なウェイトキャリブレーションは、ビデオの複雑な時間力学をモデル化するための効率的な方法である。
TAdaConvは、時間的モデリング能力を持つ空間的畳み込みを、その局所的および大域的時間的文脈に応じて各フレームの畳み込み重みを調整することによって強化する。
我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
論文 参考訳(メタデータ) (2021-10-12T17:25:07Z) - Skip-Convolutions for Efficient Video Processing [21.823332885657784]
Skip-Convolutionsはビデオストリームにおける大量の冗長性を活用し、計算を節約する。
私たちは、EfficientDetとHRNetという2つの最先端アーキテクチャで、すべての畳み込みをSkip-Convolutionsで置き換えます。
2つの異なるタスクに対して34倍の係数で計算コストを一貫して削減します。
論文 参考訳(メタデータ) (2021-04-23T09:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。