論文の概要: Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval
- arxiv url: http://arxiv.org/abs/2309.08167v1
- Date: Fri, 15 Sep 2023 05:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:54:09.353287
- Title: Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval
- Title(参考訳): 効率的な映像分類と検索のための分解能圧縮とアライメント
- Authors: Rui Deng, Qian Wu, Yuke Li, Haoran Fu
- Abstract要約: 本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
- 参考スコア(独自算出の注目度): 16.497758750494537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing video inference efficiency has become increasingly important with
the growing demand for video analysis in various fields. Some existing methods
achieve high efficiency by explicit discard of spatial or temporal information,
which poses challenges in fast-changing and fine-grained scenarios. To address
these issues, we propose an efficient video representation network with
Differentiable Resolution Compression and Alignment mechanism, which compresses
non-essential information in the early stage of the network to reduce
computational costs while maintaining consistent temporal correlations.
Specifically, we leverage a Differentiable Context-aware Compression Module to
encode the saliency and non-saliency frame features, refining and updating the
features into a high-low resolution video sequence. To process the new
sequence, we introduce a new Resolution-Align Transformer Layer to capture
global temporal correlations among frame features with different resolutions,
while reducing spatial computation costs quadratically by utilizing fewer
spatial tokens in low-resolution non-saliency frames. The entire network can be
end-to-end optimized via the integration of the differentiable compression
module. Experimental results show that our method achieves the best trade-off
between efficiency and performance on near-duplicate video retrieval and
competitive results on dynamic video classification compared to
state-of-the-art methods. Code:https://github.com/dun-research/DRCA
- Abstract(参考訳): 様々な分野における映像分析の需要の増加に伴い,映像推定効率の最適化がますます重要になっている。
既存の手法では空間的情報や時間的情報を明示的に破棄することで高い効率性を実現している。
これらの問題に対処するため,時間的相関性を維持しつつ計算コストを削減するため,ネットワークの初期段階において非重要情報を圧縮する分割圧縮調整機構を備えた効率的な映像表現ネットワークを提案する。
具体的には,カスタマイズ可能なコンテキスト認識圧縮モジュールを用いて,サリエンシーと非サリエンシーのフレーム特徴をエンコードし,高解像度の映像列に特徴を洗練・更新する。
新たなシーケンスを処理するために,低分解能フレームにおける空間トークンが少なくなることにより,空間計算コストを2次的に削減し,フレーム特徴間の時間的相関を異なる解像度で捉えた。
ネットワーク全体が、差別化可能な圧縮モジュールを統合することで、エンドツーエンドで最適化できる。
実験の結果,近重複ビデオ検索における効率と性能のトレードオフと,最先端手法と比較して動的ビデオ分類の競合結果が最良であることが判明した。
コード:https://github.com/dun-research/DRCA
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - Video Rescaling Networks with Joint Optimization Strategies for
Downscaling and Upscaling [15.630742638440998]
結合層を持つ可逆ニューラルネットワークに基づく2つの共同最適化手法を提案する。
我々のLong Short-Term Memory Video Rescaling Network (LSTM-VRN)は、低解像度ビデオの時間情報を利用して、アップスケーリングに欠落する高周波情報の明示的な予測を形成する。
当社のマルチインプットマルチアウトプットビデオリスケーリングネットワーク(MIMO-VRN)は、ビデオフレームのグループを同時にダウンスケーリングおよびアップスケーリングするための新しい戦略を提案します。
論文 参考訳(メタデータ) (2021-03-27T09:35:38Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Decomposition, Compression, and Synthesis (DCS)-based Video Coding: A
Neural Exploration via Resolution-Adaptive Learning [30.54722074562783]
入力映像をそれぞれの空間テクスチャフレーム(STF)に分解する。
次に,一般的なビデオコーダを用いて圧縮する。
最後に,デコードされたSTFとTMFをネイティブ入力と同じ解像度で合成し,高品質なビデオ再構成を実現する。
論文 参考訳(メタデータ) (2020-12-01T17:23:53Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。