論文の概要: A Lightweight Dual-Mode Optimization for Generative Face Video Coding
- arxiv url: http://arxiv.org/abs/2508.13547v1
- Date: Tue, 19 Aug 2025 06:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.815881
- Title: A Lightweight Dual-Mode Optimization for Generative Face Video Coding
- Title(参考訳): 生成顔ビデオ符号化のための軽量デュアルモード最適化
- Authors: Zihan Zhang, Shanzhi Yin, Bolin Chen, Ru-Ling Liao, Shiqi Wang, Yan Ye,
- Abstract要約: 生成顔画像符号化(GFVC)は、深部生成モデルの強い推論能力を活用することにより、より優れた速度歪み性能を実現する。
本稿では,再構成品質を維持しつつ,複雑性を低減するために2モード最適化を実現する軽量なGFVCフレームワークを提案する。
実験の結果,GFVCの軽量デュアルモード最適化は,ベースラインに比べて90.4%のパラメータ削減と88.9%の省力化を実現できることがわかった。
- 参考スコア(独自算出の注目度): 26.308480665852052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Face Video Coding (GFVC) achieves superior rate-distortion performance by leveraging the strong inference capabilities of deep generative models. However, its practical deployment is hindered by large model parameters and high computational costs. To address this, we propose a lightweight GFVC framework that introduces dual-mode optimization - combining architectural redesign and operational refinement - to reduce complexity whilst preserving reconstruction quality. Architecturally, we replace traditional 3 x 3 convolutions with slimmer and more efficient layers, reducing complexity without compromising feature expressiveness. Operationally, we develop a two-stage adaptive channel pruning strategy: (1) soft pruning during training identifies redundant channels via learnable thresholds, and (2) hard pruning permanently eliminates these channels post-training using a derived mask. This dual-phase approach ensures both training stability and inference efficiency. Experimental results demonstrate that the proposed lightweight dual-mode optimization for GFVC can achieve 90.4% parameter reduction and 88.9% computation saving compared to the baseline, whilst achieving superior performance compared to state-of-the-art video coding standard Versatile Video Coding (VVC) in terms of perceptual-level quality metrics. As such, the proposed method is expected to enable efficient GFVC deployment in resource-constrained environments such as mobile edge devices.
- Abstract(参考訳): 生成顔画像符号化(GFVC)は、深部生成モデルの強い推論能力を活用することにより、より優れた速度歪み性能を実現する。
しかし、その実践的な展開は、大きなモデルパラメータと高い計算コストによって妨げられている。
そこで本研究では,設計上の再設計と運用上の改善を併用した2モード最適化を実現する軽量なGFVCフレームワークを提案する。
アーキテクチャ上、従来の3 x 3の畳み込みをスリムで効率的なレイヤに置き換え、機能の表現性を損なうことなく複雑さを減らします。
1)訓練中のソフトプルーニングは学習可能なしきい値を介して冗長なチャネルを識別し,(2)ハードプルーニングは派生マスクを用いてこれらのチャネルを永久に除去する。
この二重位相アプローチは、トレーニングの安定性と推論効率の両方を保証する。
実験により、GFVCの軽量なデュアルモード最適化は、ベースラインと比較して90.4%のパラメータ削減と88.9%の計算コストを達成でき、また、知覚レベルの品質指標では、最先端のビデオ符号化標準であるVersatile Video Coding (VVC) よりも優れた性能を達成できることが示された。
提案手法は,移動体エッジデバイスなどの資源制約環境におけるGFVCの効率的な展開を可能にすることが期待されている。
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion [44.206702976963676]
FPSAttentionは、ビデオ生成のためのFP8量子化とスパーシリティの新たなコデザインである。
1) 量子化とスパーシリティの両方を同時にサポートする統一された3Dタイルワイドの粒度,2) ノイズスケジュールに適応し,量子化/スパーシティエラーとデノナイズステップの強い相関に対処するデノナイズされたステップアウェア戦略,3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネル。
論文 参考訳(メタデータ) (2025-06-05T05:30:30Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T06:47:17Z) - Channel-wise Feature Decorrelation for Enhanced Learned Image Compression [16.638869231028437]
新たなLearnered Compression(LC)は、従来のモジュールをDeep Neural Networks(DNN)に置き換えるものだ。
本稿では,既存のDNN容量をフル活用して圧縮を改善することを提案する。
3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。
論文 参考訳(メタデータ) (2024-03-16T14:30:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。