論文の概要: Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment
- arxiv url: http://arxiv.org/abs/2512.10450v1
- Date: Thu, 11 Dec 2025 09:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.298236
- Title: Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment
- Title(参考訳): Dual-Domain Progressive Temporal Alignment を用いたエラー伝搬なし学習ビデオ圧縮
- Authors: Han Li, Shaohui Li, Wenrui Dai, Chenglin Li, Xinlong Pan, Haipeng Wang, Junni Zou, Hongkai Xiong,
- Abstract要約: 両ドメインのプログレッシブな時間的アライメントと品質条件の混合(QCMoE)を備えた新しい統合変換フレームワークを提案する。
QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。
実験結果から,提案手法は最先端技術と比較して,競争力のあるR-D性能を実現することが示された。
- 参考スコア(独自算出の注目度): 92.57576987521107
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing frameworks for learned video compression suffer from a dilemma between inaccurate temporal alignment and error propagation for motion estimation and compensation (ME/MC). The separate-transform framework employs distinct transforms for intra-frame and inter-frame compression to yield impressive rate-distortion (R-D) performance but causes evident error propagation, while the unified-transform framework eliminates error propagation via shared transforms but is inferior in ME/MC in shared latent domains. To address this limitation, in this paper, we propose a novel unifiedtransform framework with dual-domain progressive temporal alignment and quality-conditioned mixture-of-expert (QCMoE) to enable quality-consistent and error-propagation-free streaming for learned video compression. Specifically, we propose dualdomain progressive temporal alignment for ME/MC that leverages coarse pixel-domain alignment and refined latent-domain alignment to significantly enhance temporal context modeling in a coarse-to-fine fashion. The coarse pixel-domain alignment efficiently handles simple motion patterns with optical flow estimated from a single reference frame, while the refined latent-domain alignment develops a Flow-Guided Deformable Transformer (FGDT) over latents from multiple reference frames to achieve long-term motion refinement (LTMR) for complex motion patterns. Furthermore, we design a QCMoE module for continuous bit-rate adaptation that dynamically assigns different experts to adjust quantization steps per pixel based on target quality and content rather than relies on a single quantization step. QCMoE allows continuous and consistent rate control with appealing R-D performance. Experimental results show that the proposed method achieves competitive R-D performance compared with the state-of-the-arts, while successfully eliminating error propagation.
- Abstract(参考訳): 学習ビデオ圧縮のための既存のフレームワークは、不正確な時間的アライメントと、動作推定と補償(ME/MC)のためのエラー伝搬のジレンマに悩まされている。
分離変換フレームワークは、フレーム内圧縮とフレーム間圧縮の異なる変換を用いて、印象的なレート歪み(R-D)性能をもたらすが、明らかなエラー伝搬を引き起こす一方、統一変換フレームワークは共有変換によるエラー伝播を排除しているが、共有潜在ドメインではME/MCでは劣る。
本稿では、この制限に対処するため、学習ビデオ圧縮のための品質一貫性と誤りプロパゲーションのないストリーミングを実現するために、二重ドメインの進行時間アライメントと品質条件の混合(QCMoE)を備えた新しい統一変換フレームワークを提案する。
具体的には、粗い画素領域アライメントと精細な潜在領域アライメントを活用して、粗大なコンテキストモデリングを大幅に向上させるME/MCの2領域プログレッシブ時間アライメントを提案する。
粗い画素領域アライメントは、単一の基準フレームから推定される光学的流れを伴う単純な動きパターンを効率的に処理し、精製された潜在領域アライメントは、複数の基準フレームからの潜伏者に対してフローガイド可能な変形変換器(FGDT)を開発し、複雑な動きパターンに対する長期動作改善(LTMR)を実現する。
さらに,連続ビットレート適応のためのQCMoEモジュールを設計し,異なる専門家を動的に割り当てて,単一の量子化ステップに頼るのではなく,目標品質とコンテンツに基づいて1ピクセルあたりの量子化ステップを調整する。
QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。
実験結果から,提案手法は最先端技術と比較して競合的なR-D性能を実現し,誤りの伝播をなくすことができた。
関連論文リスト
- Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。
拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。
LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文 参考訳(メタデータ) (2025-11-11T08:40:28Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - Multipath Interference Suppression in Indirect Time-of-Flight Imaging via a Novel Compressed Sensing Framework [0.2710246456535607]
Indirect Time-of-Flight (iToF) システムの深度再構成精度とマルチターゲット分離能力を向上させるための新しい圧縮センシング手法を提案する。
本手法は単一変調周波数で動作し,複数位相シフトと狭周期連続波を用いたセンシング行列を構成する。
提案手法は,ハードウェアの変更を加えることなく,復元精度と堅牢性の両方において従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-24T03:54:27Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。