論文の概要: L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression
- arxiv url: http://arxiv.org/abs/2504.02560v1
- Date: Thu, 03 Apr 2025 13:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:12.784801
- Title: L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression
- Title(参考訳): L-LBVC:学習した双方向ビデオ圧縮の長期動作推定と予測
- Authors: Yongqi Zhai, Luyang Tang, Wei Jiang, Jiayu Yang, Ronggang Wang,
- Abstract要約: 本稿では,短期動作と長期動作の両方に対応可能な適応動作推定モジュールを提案する。
また、モーション符号化のビットコストを大幅に削減できる適応型モーション予測モジュールを提案する。
実験の結果、L-LBVCは従来のLVC法よりも大幅に優れており、一部のテストデータセットではVVC(VTM)を上回ります。
- 参考スコア(独自算出の注目度): 26.64319459114935
- License:
- Abstract: Recently, learned video compression (LVC) has shown superior performance under low-delay configuration. However, the performance of learned bi-directional video compression (LBVC) still lags behind traditional bi-directional coding. The performance gap mainly arises from inaccurate long-term motion estimation and prediction of distant frames, especially in large motion scenes. To solve these two critical problems, this paper proposes a novel LBVC framework, namely L-LBVC. Firstly, we propose an adaptive motion estimation module that can handle both short-term and long-term motions. Specifically, we directly estimate the optical flows for adjacent frames and non-adjacent frames with small motions. For non-adjacent frames with large motions, we recursively accumulate local flows between adjacent frames to estimate long-term flows. Secondly, we propose an adaptive motion prediction module that can largely reduce the bit cost for motion coding. To improve the accuracy of long-term motion prediction, we adaptively downsample reference frames during testing to match the motion ranges observed during training. Experiments show that our L-LBVC significantly outperforms previous state-of-the-art LVC methods and even surpasses VVC (VTM) on some test datasets under random access configuration.
- Abstract(参考訳): 近年,低遅延構成下での学習ビデオ圧縮(LVC)の性能が向上している。
しかし、学習された双方向ビデオ圧縮(LBVC)の性能は、従来の双方向符号化よりも遅れている。
パフォーマンスギャップは主に、特に大きな動きシーンにおいて、不正確な長期的動きの推定と遠方のフレームの予測から生じる。
そこで本研究では,L-LBVCという新しいLBVCフレームワークを提案する。
まず,短期動作と長期動作の両方に対応可能な適応動作推定モジュールを提案する。
具体的には、隣接するフレームと、小さな動きを持つ非隣接フレームの光流を直接推定する。
大きな動きを持つ非隣接フレームに対しては、隣接するフレーム間の局所フローを再帰的に蓄積し、長期フローを推定する。
第2に,モーション符号化のビットコストを大幅に削減できる適応型モーション予測モジュールを提案する。
長期動作予測の精度を向上させるため,テスト中の基準フレームを適応的にダウンサンプルし,トレーニング中に観測された運動範囲に適合させた。
実験の結果、L-LBVCは従来のLVC法よりも大幅に優れており、ランダムアクセス構成下でのテストデータセットのVVC(VTM)をはるかに上回っていることがわかった。
関連論文リスト
- Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - A Multi-In-Single-Out Network for Video Frame Interpolation without
Optical Flow [14.877766449009119]
深層学習に基づくビデオフレーム (VFI) 法は、2つの入力フレーム間の動きを推定することに集中している。
動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI法を提案する。
我々はMISO-VFIがビデオフレーム内のベクトル時間をよりよくキャプチャできる新しい動き知覚損失を導入した。
論文 参考訳(メタデータ) (2023-11-20T08:29:55Z) - MVFlow: Deep Optical Flow Estimation of Compressed Videos with Motion
Vector Prior [16.633665275166706]
圧縮ビデオにおける光フロー推定の速度と精度を向上させるために運動ベクトルを用いた光フローモデルMVFlowを提案する。
実験の結果,既存のモデルと比較して提案したMVFlowの1.09倍の精度を示し,既存のモデルと同様の精度で保存時間を短縮した。
論文 参考訳(メタデータ) (2023-08-03T07:16:18Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Versatile Learned Video Compression [26.976302025254043]
本稿では,可能な全ての予測モードをサポートするために,一つのモデルを用いた多目的学習ビデオ圧縮(VLVC)フレームワークを提案する。
具体的には、多目的圧縮を実現するために、まず複数の3次元運動ベクトル場を適用した動き補償モジュールを構築する。
フロー予測モジュールは, ボクセルフローの伝送コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-11-05T10:50:37Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。