論文の概要: Generative Face Video Coding Techniques and Standardization Efforts: A
Review
- arxiv url: http://arxiv.org/abs/2311.02649v1
- Date: Sun, 5 Nov 2023 13:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:27:29.945997
- Title: Generative Face Video Coding Techniques and Standardization Efforts: A
Review
- Title(参考訳): 生成的顔映像符号化技術と標準化の取り組み : レビュー
- Authors: Bolin Chen, Jie Chen, Shiqi Wang, Yan Ye
- Abstract要約: GFVC(Generative Face Video Coding)技術は、超低帯域幅のシナリオにおいて高品質な顔ビデオ通信を実現する。
本稿では,GFVC技術の最近の進歩と標準化の取り組みを包括的に調査する。
- 参考スコア(独自算出の注目度): 17.856692220227583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Face Video Coding (GFVC) techniques can exploit the compact
representation of facial priors and the strong inference capability of deep
generative models, achieving high-quality face video communication in ultra-low
bandwidth scenarios. This paper conducts a comprehensive survey on the recent
advances of the GFVC techniques and standardization efforts, which could be
applicable to ultra low bitrate communication, user-specified
animation/filtering and metaverse-related functionalities. In particular, we
generalize GFVC systems within one coding framework and summarize different
GFVC algorithms with their corresponding visual representations. Moreover, we
review the GFVC standardization activities that are specified with supplemental
enhancement information messages. Finally, we discuss fundamental challenges
and broad applications on GFVC techniques and their standardization potentials,
as well as envision their future trends. The project page can be found at
https://github.com/Berlin0610/Awesome-Generative-Face-Video-Coding.
- Abstract(参考訳): GFVC(Generative Face Video Coding)技術は、顔先行のコンパクトな表現と、深層生成モデルの強力な推論能力を利用して、超低帯域幅シナリオにおける高品質な顔ビデオ通信を実現する。
本稿では,GFVC技術の最近の進歩と標準化の取り組みを包括的に調査し,超低ビットレート通信,ユーザ指定アニメーション/フィルタ,メタバース関連機能に適用できることを示す。
特に、GFVCシステムを1つの符号化フレームワーク内で一般化し、異なるGFVCアルゴリズムを対応する視覚表現で要約する。
また,追加の強化情報メッセージで指定したGFVC標準化活動について概観する。
最後に,GFVC技術とその標準化の可能性に関する基礎的課題と幅広い応用について論じ,今後の動向を考察する。
プロジェクトページはhttps://github.com/Berlin0610/Awesome-Generative-Face-Video-Codingで見ることができる。
関連論文リスト
- Standardizing Generative Face Video Compression using Supplemental Enhancement Information [22.00903915523654]
本稿では,補助強調情報(SEI)を用いたGFVC(Generative Face Video Compression)アプローチを提案する。
執筆時点で提案されているGFVCアプローチは、JVET(Joint Video Experts Team)による標準化のための公式なTuC(Technology Under consideration)である。
著者の知識を最大限活用するために、JVETが提案したSEIベースのGFVCアプローチは、生成ビデオ圧縮のための最初の標準化活動である。
論文 参考訳(メタデータ) (2024-10-19T13:37:24Z) - Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens [28.03183316628635]
本稿では、適応的な視覚トークンを用いて、再構成と帯域幅のインテリジェンス間の例外的なトレードオフを実現する、新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案する。
実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding (VVC) や最新技術であるGenerative Face Video Compression (GFVC) アルゴリズムと比較して,符号化の柔軟性と速度歪み性能に優れることを示した。
論文 参考訳(メタデータ) (2024-10-11T03:24:21Z) - Live Video Captioning [0.6291443816903801]
LVC(Live Video Captioning)へのパラダイムシフトを導入する。
LVCでは、密集したビデオキャプションモデルがオンライン形式でビデオストリームのキャプションを生成する必要がある。
オンラインシナリオに適した新しい評価指標を提案し,従来の指標よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:25:16Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。