論文の概要: A Lightweight Dual-Mode Optimization for Generative Face Video Coding
- arxiv url: http://arxiv.org/abs/2508.13547v1
- Date: Tue, 19 Aug 2025 06:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.815881
- Title: A Lightweight Dual-Mode Optimization for Generative Face Video Coding
- Title(参考訳): 生成顔ビデオ符号化のための軽量デュアルモード最適化
- Authors: Zihan Zhang, Shanzhi Yin, Bolin Chen, Ru-Ling Liao, Shiqi Wang, Yan Ye,
- Abstract要約: 生成顔画像符号化(GFVC)は、深部生成モデルの強い推論能力を活用することにより、より優れた速度歪み性能を実現する。
本稿では,再構成品質を維持しつつ,複雑性を低減するために2モード最適化を実現する軽量なGFVCフレームワークを提案する。
実験の結果,GFVCの軽量デュアルモード最適化は,ベースラインに比べて90.4%のパラメータ削減と88.9%の省力化を実現できることがわかった。
- 参考スコア(独自算出の注目度): 26.308480665852052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Face Video Coding (GFVC) achieves superior rate-distortion performance by leveraging the strong inference capabilities of deep generative models. However, its practical deployment is hindered by large model parameters and high computational costs. To address this, we propose a lightweight GFVC framework that introduces dual-mode optimization - combining architectural redesign and operational refinement - to reduce complexity whilst preserving reconstruction quality. Architecturally, we replace traditional 3 x 3 convolutions with slimmer and more efficient layers, reducing complexity without compromising feature expressiveness. Operationally, we develop a two-stage adaptive channel pruning strategy: (1) soft pruning during training identifies redundant channels via learnable thresholds, and (2) hard pruning permanently eliminates these channels post-training using a derived mask. This dual-phase approach ensures both training stability and inference efficiency. Experimental results demonstrate that the proposed lightweight dual-mode optimization for GFVC can achieve 90.4% parameter reduction and 88.9% computation saving compared to the baseline, whilst achieving superior performance compared to state-of-the-art video coding standard Versatile Video Coding (VVC) in terms of perceptual-level quality metrics. As such, the proposed method is expected to enable efficient GFVC deployment in resource-constrained environments such as mobile edge devices.
- Abstract(参考訳): 生成顔画像符号化(GFVC)は、深部生成モデルの強い推論能力を活用することにより、より優れた速度歪み性能を実現する。
しかし、その実践的な展開は、大きなモデルパラメータと高い計算コストによって妨げられている。
そこで本研究では,設計上の再設計と運用上の改善を併用した2モード最適化を実現する軽量なGFVCフレームワークを提案する。
アーキテクチャ上、従来の3 x 3の畳み込みをスリムで効率的なレイヤに置き換え、機能の表現性を損なうことなく複雑さを減らします。
1)訓練中のソフトプルーニングは学習可能なしきい値を介して冗長なチャネルを識別し,(2)ハードプルーニングは派生マスクを用いてこれらのチャネルを永久に除去する。
この二重位相アプローチは、トレーニングの安定性と推論効率の両方を保証する。
実験により、GFVCの軽量なデュアルモード最適化は、ベースラインと比較して90.4%のパラメータ削減と88.9%の計算コストを達成でき、また、知覚レベルの品質指標では、最先端のビデオ符号化標準であるVersatile Video Coding (VVC) よりも優れた性能を達成できることが示された。
提案手法は,移動体エッジデバイスなどの資源制約環境におけるGFVCの効率的な展開を可能にすることが期待されている。
関連論文リスト
- VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training [53.09658039757408]
本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。
nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。
実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
論文 参考訳(メタデータ) (2026-01-25T13:22:38Z) - Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。
まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。
第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。
第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文 参考訳(メタデータ) (2025-12-15T02:51:47Z) - A Multi-Stage Optimization Framework for Deploying Learned Image Compression on FPGAs [7.577235739757108]
ディープラーニングベースの画像圧縮(lic)は、最先端のレート歪み(RD)性能を達成したが、これらのモデルをリソース制約付きFPGAにデプロイすることは大きな課題である。
この研究は、高性能浮動小数点モデルと効率的なハードウェアフレンドリな整数ベースの実装とのギャップを埋める、完全なマルチステージ最適化フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-21T10:55:44Z) - Boosting Neural Video Representation via Online Structural Reparameterization [16.30945567392327]
オンライン構造的再パラメータ化に基づくNVRフレームワークである Online-RepNeRV を提案する。
本手法は,トレーニング時間と復号速度を同等に保ちながら,ベースライン法平均PSNR0.37-2.7dBを達成する。
論文 参考訳(メタデータ) (2025-11-14T08:44:31Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Boosting Fine-Grained Urban Flow Inference via Lightweight Architecture and Focalized Optimization [35.11698882937702]
適応最適化でアーキテクチャ効率を相乗化するための統合ソリューションを提案する。
PLGFは、Progressive Local-Global Fusion戦略を採用した軽量で強力なアーキテクチャである。
DualFocal Lossは、二重空間の監視と難易度対応の集中機構を統合する新しい機能である。
論文 参考訳(メタデータ) (2025-11-10T13:38:26Z) - VividFace: High-Quality and Efficient One-Step Diffusion For Video Face Enhancement [51.83206132052461]
ビデオ顔強調(VFE)は、劣化したビデオシーケンスから高品質な顔領域を再構築することを目指している。
ビデオの超解像と生成フレームワークに依存する現在の手法は、3つの根本的な課題に直面している。
ビデオ・フェイス・エンハンスメントのための新規かつ効率的なワンステップ拡散フレームワークであるVividFaceを提案する。
論文 参考訳(メタデータ) (2025-09-28T02:39:48Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion [44.206702976963676]
FPSAttentionは、ビデオ生成のためのFP8量子化とスパーシリティの新たなコデザインである。
1) 量子化とスパーシリティの両方を同時にサポートする統一された3Dタイルワイドの粒度,2) ノイズスケジュールに適応し,量子化/スパーシティエラーとデノナイズステップの強い相関に対処するデノナイズされたステップアウェア戦略,3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネル。
論文 参考訳(メタデータ) (2025-06-05T05:30:30Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T06:47:17Z) - Channel-wise Feature Decorrelation for Enhanced Learned Image Compression [16.638869231028437]
新たなLearnered Compression(LC)は、従来のモジュールをDeep Neural Networks(DNN)に置き換えるものだ。
本稿では,既存のDNN容量をフル活用して圧縮を改善することを提案する。
3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。
論文 参考訳(メタデータ) (2024-03-16T14:30:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。