論文の概要: Multi-Scale Deformable Alignment and Content-Adaptive Inference for
Flexible-Rate Bi-Directional Video Compression
- arxiv url: http://arxiv.org/abs/2306.16544v1
- Date: Wed, 28 Jun 2023 20:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:47:29.136175
- Title: Multi-Scale Deformable Alignment and Content-Adaptive Inference for
Flexible-Rate Bi-Directional Video Compression
- Title(参考訳): フレキシブルレート双方向ビデオ圧縮のためのマルチスケール変形性アライメントとコンテンツ適応型推論
- Authors: M.Ak{\i}n Y{\i}lmaz, O.Ugur Ulas, A.Murat Tekalp
- Abstract要約: 本稿では、エンドツーエンドの速度歪みに最適化された階層的双方向ビデオ圧縮のための適応型モーション補正モデルを提案する。
我々はゲインユニットを使用し、単一のモデルが複数のレート歪み動作ポイントで動作できるようにする。
実験により, 学習ビデオ符号化における先行技術に比較して, 最先端の速度歪み性能を示すことができた。
- 参考スコア(独自算出の注目度): 8.80688035831646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of ability to adapt the motion compensation model to video content
is an important limitation of current end-to-end learned video compression
models. This paper advances the state-of-the-art by proposing an adaptive
motion-compensation model for end-to-end rate-distortion optimized hierarchical
bi-directional video compression. In particular, we propose two novelties: i) a
multi-scale deformable alignment scheme at the feature level combined with
multi-scale conditional coding, ii) motion-content adaptive inference. In
addition, we employ a gain unit, which enables a single model to operate at
multiple rate-distortion operating points. We also exploit the gain unit to
control bit allocation among intra-coded vs. bi-directionally coded frames by
fine tuning corresponding models for truly flexible-rate learned video coding.
Experimental results demonstrate state-of-the-art rate-distortion performance
exceeding those of all prior art in learned video coding.
- Abstract(参考訳): 動画コンテンツに動き補償モデルを適用する能力の欠如は、現在のエンドツーエンドの学習ビデオ圧縮モデルの重要な制限である。
本稿では、エンドツーエンドの速度歪みに最適化された階層的双方向ビデオ圧縮のための適応型モーション補償モデルを提案する。
特に2つの新案を提案します
一 特徴レベルにおけるマルチスケールの変形可能なアライメント方式及びマルチスケール条件付き符号化
二 運動コンテンツ適応推論
さらに,複数のレート歪み動作点で単一モデルを動作させることができるゲインユニットを採用した。
また,実際のフレキシブルレート学習ビデオ符号化のために,対応するモデルを微調整することにより,符号内対双方向符号化フレーム間のビット割り当てを制御するためにゲインユニットを利用する。
実験により, 学習ビデオ符号化における先行技術に比較して, 最先端の速度歪み性能を示すことができた。
関連論文リスト
- Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Flexible-Rate Learned Hierarchical Bi-Directional Video Compression With
Motion Refinement and Frame-Level Bit Allocation [8.80688035831646]
我々は、動き推定と予測モジュールを組み合わせ、改良された残留運動ベクトルを圧縮し、速度歪み性能を向上する。
我々は、ゲインユニットを利用して、コード内対双方向符号化フレーム間のビット割り当てを制御する。
論文 参考訳(メタデータ) (2022-06-27T20:18:52Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - End-to-End Rate-Distortion Optimization for Bi-Directional Learned Video
Compression [10.404162481860634]
学習されたビデオ圧縮は、すべての非線形モジュールのエンドツーエンドの速度歪みを最適化する訓練を可能にする。
本稿では,画像の固定サイズ群に対するコスト関数の蓄積による階層的,双方向な動きのエンドツーエンド最適化を初めて提案する。
論文 参考訳(メタデータ) (2020-08-11T22:50:06Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。