論文の概要: VA-RED$^2$: Video Adaptive Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2102.07887v1
- Date: Mon, 15 Feb 2021 22:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:05:17.296905
- Title: VA-RED$^2$: Video Adaptive Redundancy Reduction
- Title(参考訳): VA-RED$^2$:ビデオ適応冗長化
- Authors: Bowen Pan, Rameswar Panda, Camilo Fosco, Chung-Ching Lin, Alex
Andonian, Yue Meng, Kate Saenko, Aude Oliva, Rogerio Feris
- Abstract要約: 我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
- 参考スコア(独自算出の注目度): 64.75692128294175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing inference on deep learning models for videos remains a challenge
due to the large amount of computational resources required to achieve robust
recognition. An inherent property of real-world videos is the high correlation
of information across frames which can translate into redundancy in either
temporal or spatial feature maps of the models, or both. The type of redundant
features depends on the dynamics and type of events in the video: static videos
have more temporal redundancy while videos focusing on objects tend to have
more channel redundancy. Here we present a redundancy reduction framework,
termed VA-RED$^2$, which is input-dependent. Specifically, our VA-RED$^2$
framework uses an input-dependent policy to decide how many features need to be
computed for temporal and channel dimensions. To keep the capacity of the
original model, after fully computing the necessary features, we reconstruct
the remaining redundant features from those using cheap linear operations. We
learn the adaptive policy jointly with the network weights in a differentiable
way with a shared-weight mechanism, making it highly efficient. Extensive
experiments on multiple video datasets and different visual tasks show that our
framework achieves $20\% - 40\%$ reduction in computation (FLOPs) when compared
to state-of-the-art methods without any performance loss. Project page:
http://people.csail.mit.edu/bpan/va-red/.
- Abstract(参考訳): ビデオの深層学習モデルに対する推論は、ロバストな認識を実現するのに必要な大量の計算資源のため、依然として課題である。
実世界のビデオの固有の特性は、フレーム間の情報の高い相関であり、モデルの時間的または空間的特徴マップの冗長性に変換できる。
静的ビデオは時間的冗長度が高いのに対して、オブジェクトに焦点を当てたビデオはチャネルの冗長度が高い傾向があります。
ここでは,入力に依存した冗長性低減フレームワークva-red$^2$を提案する。
具体的には、VA-RED$^2$フレームワークは、入力依存ポリシーを使用して、時間的およびチャネル寸法で計算される機能の数を決定します。
元のモデルのキャパシティを維持するため、必要な機能をフルに計算した後、安価な線形演算を用いて残余の機能を再構築する。
我々は,ネットワーク重みと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習し,高効率化を図る。
複数のビデオデータセットと異なる視覚的タスクに関する広範な実験は、パフォーマンスの損失のない最先端の方法と比較して、私たちのフレームワークが計算(FLOP)の$ 20\% - 40\%$削減を達成することを示しています。
プロジェクトページ: http://people.csail.mit.edu/bpan/va-red/
関連論文リスト
- EfficientSCI: Densely Connected Network with Space-time Factorization
for Large-scale Video Snapshot Compressive Imaging [6.8372546605486555]
圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドのディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示す。
提案手法は,従来のSOTAアルゴリズムよりも性能が優れ,リアルタイム性能が向上した。
論文 参考訳(メタデータ) (2023-05-17T07:28:46Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - A Codec Information Assisted Framework for Efficient Compressed Video
Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。
圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文 参考訳(メタデータ) (2022-10-15T08:48:29Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - TAda! Temporally-Adaptive Convolutions for Video Understanding [17.24510667917993]
時間次元に沿った適応的なウェイトキャリブレーションは、ビデオの複雑な時間力学をモデル化するための効率的な方法である。
TAdaConvは、時間的モデリング能力を持つ空間的畳み込みを、その局所的および大域的時間的文脈に応じて各フレームの畳み込み重みを調整することによって強化する。
我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
論文 参考訳(メタデータ) (2021-10-12T17:25:07Z) - Skip-Convolutions for Efficient Video Processing [21.823332885657784]
Skip-Convolutionsはビデオストリームにおける大量の冗長性を活用し、計算を節約する。
私たちは、EfficientDetとHRNetという2つの最先端アーキテクチャで、すべての畳み込みをSkip-Convolutionsで置き換えます。
2つの異なるタスクに対して34倍の係数で計算コストを一貫して削減します。
論文 参考訳(メタデータ) (2021-04-23T09:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。