論文の概要: End-to-End Learning for Video Frame Compression with Self-Attention
- arxiv url: http://arxiv.org/abs/2004.09226v1
- Date: Mon, 20 Apr 2020 12:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:19:08.409535
- Title: End-to-End Learning for Video Frame Compression with Self-Attention
- Title(参考訳): 自己注意型ビデオフレーム圧縮のためのエンドツーエンド学習
- Authors: Nannan Zou, Honglei Zhang, Francesco Cricri, Hamed R. Tavakoli, Jani
Lainema, Emre Aksu, Miska Hannuksela, Esa Rahtu
- Abstract要約: ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
- 参考スコア(独自算出の注目度): 25.23586503813838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the core components of conventional (i.e., non-learned) video codecs
consists of predicting a frame from a previously-decoded frame, by leveraging
temporal correlations. In this paper, we propose an end-to-end learned system
for compressing video frames. Instead of relying on pixel-space motion (as with
optical flow), our system learns deep embeddings of frames and encodes their
difference in latent space. At decoder-side, an attention mechanism is designed
to attend to the latent space of frames to decide how different parts of the
previous and current frame are combined to form the final predicted current
frame. Spatially-varying channel allocation is achieved by using importance
masks acting on the feature-channels. The model is trained to reduce the
bitrate by minimizing a loss on importance maps and a loss on the probability
output by a context model for arithmetic coding. In our experiments, we show
that the proposed system achieves high compression rates and high objective
visual quality as measured by MS-SSIM and PSNR. Furthermore, we provide
ablation studies where we highlight the contribution of different components.
- Abstract(参考訳): 従来の(非学習型)ビデオコーデックのコアコンポーネントの1つは、時間的相関を利用して、以前に復号されたフレームからフレームを予測することである。
本稿では,ビデオフレーム圧縮のためのエンドツーエンド学習システムを提案する。
我々のシステムは、(光学フローのように)ピクセル空間の動きに頼る代わりに、フレームの深い埋め込みを学び、その差分を潜時空間でエンコードする。
デコーダ側では、前のフレームと現在のフレームの異なる部分がどのように結合され、最終的な予測された現在のフレームを形成するかを決定するために、フレームの潜時空間にアテンション機構が設計される。
特徴チャネルに作用する重要マスクを用いることで、空間的に異なるチャネル割り当てを実現する。
このモデルは、重要度マップの損失と、算術符号化のためのコンテキストモデルによる確率出力の損失を最小化することにより、ビットレートを低減するように訓練される。
本実験では,MS-SSIM と PSNR を用いて,高い圧縮率と高客観的な視覚的品質を実現する。
さらに,様々な成分の寄与を強調するアブレーション研究を行う。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Inter-Frame Compression for Dynamic Point Cloud Geometry Coding [14.79613731546357]
本稿では,従来のフレームを用いて,現在のフレームの潜在表現を予測する圧縮手法を提案する。
提案するネットワークは,階層型マルチスケール3次元特徴学習による畳み込みを利用して,現在のフレームを符号化する。
提案手法は, G-PCCv20 Octreeに対して88%以上のBD-Rate (Bjontegaard Delta Rate)削減を実現する。
論文 参考訳(メタデータ) (2022-07-25T22:17:19Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。