Fugu-MT 論文翻訳(概要): VA-RED$^2$: Video Adaptive Redundancy Reduction

論文の概要: VA-RED$^2$: Video Adaptive Redundancy Reduction

arxiv url: http://arxiv.org/abs/2102.07887v1
Date: Mon, 15 Feb 2021 22:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 15:05:17.296905
Title: VA-RED$^2$: Video Adaptive Redundancy Reduction
Title（参考訳）: VA-RED$^2$:ビデオ適応冗長化
Authors: Bowen Pan, Rameswar Panda, Camilo Fosco, Chung-Ching Lin, Alex Andonian, Yue Meng, Kate Saenko, Aude Oliva, Rogerio Feris
Abstract要約: 我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
参考スコア（独自算出の注目度）: 64.75692128294175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Performing inference on deep learning models for videos remains a challenge due to the large amount of computational resources required to achieve robust recognition. An inherent property of real-world videos is the high correlation of information across frames which can translate into redundancy in either temporal or spatial feature maps of the models, or both. The type of redundant features depends on the dynamics and type of events in the video: static videos have more temporal redundancy while videos focusing on objects tend to have more channel redundancy. Here we present a redundancy reduction framework, termed VA-RED$^2$, which is input-dependent. Specifically, our VA-RED$^2$ framework uses an input-dependent policy to decide how many features need to be computed for temporal and channel dimensions. To keep the capacity of the original model, after fully computing the necessary features, we reconstruct the remaining redundant features from those using cheap linear operations. We learn the adaptive policy jointly with the network weights in a differentiable way with a shared-weight mechanism, making it highly efficient. Extensive experiments on multiple video datasets and different visual tasks show that our framework achieves $20\% - 40\%$ reduction in computation (FLOPs) when compared to state-of-the-art methods without any performance loss. Project page: http://people.csail.mit.edu/bpan/va-red/.
Abstract（参考訳）: ビデオの深層学習モデルに対する推論は、ロバストな認識を実現するのに必要な大量の計算資源のため、依然として課題である。実世界のビデオの固有の特性は、フレーム間の情報の高い相関であり、モデルの時間的または空間的特徴マップの冗長性に変換できる。静的ビデオは時間的冗長度が高いのに対して、オブジェクトに焦点を当てたビデオはチャネルの冗長度が高い傾向があります。ここでは,入力に依存した冗長性低減フレームワークva-red$^2$を提案する。具体的には、VA-RED$^2$フレームワークは、入力依存ポリシーを使用して、時間的およびチャネル寸法で計算される機能の数を決定します。元のモデルのキャパシティを維持するため、必要な機能をフルに計算した後、安価な線形演算を用いて残余の機能を再構築する。我々は,ネットワーク重みと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習し,高効率化を図る。複数のビデオデータセットと異なる視覚的タスクに関する広範な実験は、パフォーマンスの損失のない最先端の方法と比較して、私たちのフレームワークが計算(FLOP)の$ 20\% - 40\%$削減を達成することを示しています。プロジェクトページ: http://people.csail.mit.edu/bpan/va-red/

関連論文リスト

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [39.24524388617938]
$mathbfMavors$は、全体的ロングビデオモデリングのための新しいフレームワークである。 Mavorsは生のビデオコンテンツを2つのコアコンポーネントを通して潜在表現にエンコードする。このフレームワークは、イメージを単一フレームビデオとして扱うことにより、画像とビデオの理解を統一する。
論文参考訳（メタデータ） (2025-04-14T10:14:44Z)
Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文参考訳（メタデータ） (2025-03-17T21:13:48Z)
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3～5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文参考訳（メタデータ） (2024-12-29T15:42:24Z)
SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。我々の表現は多用途であり、様々な長いビデオ理解タスクに応用できる。
論文参考訳（メタデータ） (2024-12-02T18:46:12Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文参考訳（メタデータ） (2024-07-03T05:17:26Z)
$R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding [41.69321731689751]
ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
論文参考訳（メタデータ） (2024-03-31T21:17:48Z)
SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。 SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文参考訳（メタデータ） (2023-04-18T08:17:58Z)
Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
A Codec Information Assisted Framework for Efficient Compressed Video Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文参考訳（メタデータ） (2022-10-15T08:48:29Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。 RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-05T10:36:09Z)
TAda! Temporally-Adaptive Convolutions for Video Understanding [17.24510667917993]
時間次元に沿った適応的なウェイトキャリブレーションは、ビデオの複雑な時間力学をモデル化するための効率的な方法である。 TAdaConvは、時間的モデリング能力を持つ空間的畳み込みを、その局所的および大域的時間的文脈に応じて各フレームの畳み込み重みを調整することによって強化する。我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
論文参考訳（メタデータ） (2021-10-12T17:25:07Z)
Skip-Convolutions for Efficient Video Processing [21.823332885657784]
Skip-Convolutionsはビデオストリームにおける大量の冗長性を活用し、計算を節約する。私たちは、EfficientDetとHRNetという2つの最先端アーキテクチャで、すべての畳み込みをSkip-Convolutionsで置き換えます。 2つの異なるタスクに対して34倍の係数で計算コストを一貫して削減します。
論文参考訳（メタデータ） (2021-04-23T09:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。