論文の概要: Semantic Face Compression for Metaverse: A Compact 3D Descriptor Based
Approach
- arxiv url: http://arxiv.org/abs/2311.12817v1
- Date: Sun, 24 Sep 2023 13:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:49:05.388901
- Title: Semantic Face Compression for Metaverse: A Compact 3D Descriptor Based
Approach
- Title(参考訳): メタバースのためのセマンティック顔圧縮:コンパクトな3次元記述子に基づくアプローチ
- Authors: Binzhe Li, Bolin Chen, Zhao Wang, Shiqi Wang, Yan Ye
- Abstract要約: 我々は仮想アバター顔のための新しいメタバース通信パラダイムを構想し、コンパクトな3次元顔記述子を用いたセマンティック顔圧縮を開発する。
提案手法は,機械解析に基づくデジタルヒューマンコミュニケーションなど,多数の応用が期待できる。
- 参考スコア(独自算出の注目度): 15.838410034900138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this letter, we envision a new metaverse communication paradigm for
virtual avatar faces, and develop the semantic face compression with compact 3D
facial descriptors. The fundamental principle is that the communication of
virtual avatar faces primarily emphasizes the conveyance of semantic
information. In light of this, the proposed scheme offers the advantages of
being highly flexible, efficient and semantically meaningful. The semantic face
compression, which allows the communication of the descriptors for artificial
intelligence based understanding, could facilitate numerous applications
without the involvement of humans in metaverse. The promise of the proposed
paradigm is also demonstrated by performance comparisons with the
state-of-the-art video coding standard, Versatile Video Coding. A significant
improvement in terms of rate-accuracy performance has been achieved. The
proposed scheme is expected to enable numerous applications, such as digital
human communication based on machine analysis, and to form the cornerstone of
interaction and communication in the metaverse.
- Abstract(参考訳): 本稿では,仮想アバター顔のための新しいメタバース通信パラダイムを考案し,コンパクトな3次元顔記述子を用いたセマンティック顔圧縮を開発する。
基本的な原理は、仮想アバターのコミュニケーションが主に意味情報の伝達を強調することである。
これを踏まえ、提案手法は高い柔軟性、効率性、意味論的意味を持つという利点を提供する。
人工知能に基づく理解のための記述子のコミュニケーションを可能にするセマンティック顔圧縮は、メタバースに人間の関与なしに多数の応用を促進することができる。
提案するパラダイムの約束は、最先端のビデオ符号化標準であるVersatile Video Codingと性能比較によっても示される。
レート精度の面での大幅な改善が達成されている。
提案手法は,機械解析に基づくデジタルヒューマンコミュニケーションなど,多数の応用が可能であり,メタバースにおけるインタラクションとコミュニケーションの基盤となることが期待されている。
関連論文リスト
- 3D Vision-Language Gaussian Splatting [29.047044145499036]
マルチモーダルな3Dシーン理解は、ロボット工学、自律運転、バーチャル/拡張現実において重要な応用である。
本稿では,視覚的・意味的な相違点を適切に扱えるソリューションを提案する。
また、既存のビュー間のセマンティック一貫性を改善するために、カメラビューブレンディング技術を採用している。
論文 参考訳(メタデータ) (2024-10-10T03:28:29Z) - Meta-Learning Empowered Meta-Face: Personalized Speaking Style Adaptation for Audio-Driven 3D Talking Face Animation [9.67450435520651]
本稿では,発話スタイル適応のための新しい手法であるMetaFaceを紹介する。
基本音声スタイル適応のためのRobust Meta Initialization Stage (RMIS)、観測された音声スタイルと観測されていない音声スタイル間の接続を鍛えるDynamic Relation Mining Neural Process (NDRM)、モデル最適化の効率を高めるための低ランク行列メモリ削減アプローチからなる。
論文 参考訳(メタデータ) (2024-08-18T04:42:43Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。