論文の概要: Hybrid Local-Global Context Learning for Neural Video Compression
- arxiv url: http://arxiv.org/abs/2412.00446v1
- Date: Sat, 30 Nov 2024 11:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:50.694945
- Title: Hybrid Local-Global Context Learning for Neural Video Compression
- Title(参考訳): ニューラルビデオ圧縮のためのハイブリッドローカル-グローバルコンテキスト学習
- Authors: Yongqi Zhai, Jiayu Yang, Wei Jiang, Chunhui Yang, Luyang Tang, Ronggang Wang,
- Abstract要約: ニューラルビデオコーデックでは、現在の最先端の手法は、様々な動きを扱うために、通常マルチスケールのモーション補償を採用する。
本稿では,これらの手法の利点を最適な方法で組み合わせた,ハイブリッドなコンテキスト生成モジュールを提案する。
提案手法は,標準的なテストデータセット上での最先端の手法を大幅に強化することができる。
- 参考スコア(独自算出の注目度): 26.75685020006086
- License:
- Abstract: In neural video codecs, current state-of-the-art methods typically adopt multi-scale motion compensation to handle diverse motions. These methods estimate and compress either optical flow or deformable offsets to reduce inter-frame redundancy. However, flow-based methods often suffer from inaccurate motion estimation in complicated scenes. Deformable convolution-based methods are more robust but have a higher bit cost for motion coding. In this paper, we propose a hybrid context generation module, which combines the advantages of the above methods in an optimal way and achieves accurate compensation at a low bit cost. Specifically, considering the characteristics of features at different scales, we adopt flow-guided deformable compensation at largest-scale to produce accurate alignment in detailed regions. For smaller-scale features, we perform flow-based warping to save the bit cost for motion coding. Furthermore, we design a local-global context enhancement module to fully explore the local-global information of previous reconstructed signals. Experimental results demonstrate that our proposed Hybrid Local-Global Context learning (HLGC) method can significantly enhance the state-of-the-art methods on standard test datasets.
- Abstract(参考訳): ニューラルビデオコーデックでは、現在の最先端の手法は、様々な動きを扱うために、通常マルチスケールのモーション補償を採用する。
これらの手法は、フレーム間の冗長性を低減するために、光学フローまたは変形可能なオフセットを推定し、圧縮する。
しかし,フローベース手法は複雑な場面で不正確な動き推定に悩まされることが多い。
変形可能な畳み込み法はより堅牢であるが、モーションコーディングには高いビットコストがかかる。
本稿では,上記の手法の利点を最適な方法で組み合わせ,低コストで正確な補償を実現するハイブリッドコンテキスト生成モジュールを提案する。
具体的には、異なるスケールの特徴を考慮し、フロー誘導変形補償を最大規模で導入し、詳細領域の正確なアライメントを実現する。
より小規模な機能のために、モーションコーディングのビットコストを抑えるためにフローベースのワープを実行する。
さらに,従来の再構成信号のローカル・グローバル情報を完全に探索するローカル・グローバル・コンテクスト・エンハンスメント・モジュールを設計する。
実験結果から,提案手法は標準テストデータセット上での最先端の手法を大幅に向上させることができることがわかった。
関連論文リスト
- Sparse Global Matching for Video Frame Interpolation with Large Motion [20.49084881829404]
大きな動きはビデオフレーム補間(VFI)タスクにおいて重要な課題となる。
既存の手法は、しばしば制限された受容場によって制約されるため、大きな動きを持つシナリオを扱う際の準最適性能をもたらす。
我々はVFIのための新しいパイプラインを導入し、グローバルレベルの情報を効果的に統合し、大きな動きに関連する問題を緩和する。
論文 参考訳(メタデータ) (2024-04-10T11:06:29Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - HarmoFL: Harmonizing Local and Global Drifts in Federated Learning on
Heterogeneous Medical Images [19.62267284815759]
我々は、ローカルドリフトとグローバルドリフトの両方を扱う、HarmoFLと呼ばれる新しいフレームワークを紹介した。
HarmoFLは、周波数領域に変換された画像の振幅を正規化することにより、ローカル更新ドリフトを緩和する。
我々はHarmoFLが、期待できる収束挙動を持つ最新の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-20T13:25:48Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - FDAN: Flow-guided Deformable Alignment Network for Video
Super-Resolution [12.844337773258678]
変形可能なコンボリューションに光流を統合するために,フロー誘導変形モジュール (FDM) を提案する。
FDANは、2つのベンチマークデータセットで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2021-05-12T13:18:36Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z) - Video Frame Interpolation via Generalized Deformable Convolution [18.357839820102683]
ビデオフレームは、空間的および時間的コンピテンシーを維持しながら、近くのソースフレームから中間フレームを合成することを目的としている。
既存のディープラーニングベースのビデオフレーム手法は、フローベースの方法とカーネルベースの方法の2つのカテゴリに分けられる。
データ駆動方式で動きを効果的に学習し、時空のサンプリングポイントを自由に選択できる汎用変形型畳み込み機構が提案されている。
論文 参考訳(メタデータ) (2020-08-24T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。