論文の概要: FaceGPT: Self-supervised Learning to Chat about 3D Human Faces
- arxiv url: http://arxiv.org/abs/2406.07163v1
- Date: Tue, 11 Jun 2024 11:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:13:39.211544
- Title: FaceGPT: Self-supervised Learning to Chat about 3D Human Faces
- Title(参考訳): FaceGPT:3D人間の顔をチャットする自己教師型学習
- Authors: Haoran Wang, Mohit Mendiratta, Christian Theobalt, Adam Kortylewski,
- Abstract要約: 我々は、画像やテキストから3次元の人間の顔を推論するために、VLM(Large Vision-Language Models)のための自己教師型学習フレームワークFaceGPTを紹介した。
FaceGPTは、VLMのトークン空間に3Dフォーマブルフェイスモデルのパラメータ(3DMM)を埋め込むことで、この制限を克服する。
我々は,FaceGPTが高品質な3次元顔再構成を実現し,汎用的な視覚指導の能力を維持していることを示す。
- 参考スコア(独自算出の注目度): 69.4651241319356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FaceGPT, a self-supervised learning framework for Large Vision-Language Models (VLMs) to reason about 3D human faces from images and text. Typical 3D face reconstruction methods are specialized algorithms that lack semantic reasoning capabilities. FaceGPT overcomes this limitation by embedding the parameters of a 3D morphable face model (3DMM) into the token space of a VLM, enabling the generation of 3D faces from both textual and visual inputs. FaceGPT is trained in a self-supervised manner as a model-based autoencoder from in-the-wild images. In particular, the hidden state of LLM is projected into 3DMM parameters and subsequently rendered as 2D face image to guide the self-supervised learning process via image-based reconstruction. Without relying on expensive 3D annotations of human faces, FaceGPT obtains a detailed understanding about 3D human faces, while preserving the capacity to understand general user instructions. Our experiments demonstrate that FaceGPT not only achieves high-quality 3D face reconstructions but also retains the ability for general-purpose visual instruction following. Furthermore, FaceGPT learns fully self-supervised to generate 3D faces based on complex textual inputs, which opens a new direction in human face analysis.
- Abstract(参考訳): 我々は、画像やテキストから3次元の人間の顔を推論するために、VLM(Large Vision-Language Models)のための自己教師型学習フレームワークFaceGPTを紹介した。
典型的な3D顔再構成法は、意味論的推論能力に欠ける特殊なアルゴリズムである。
FaceGPTはこの制限を克服し、VLMのトークン空間に3Dフォーマブルフェイスモデル(3DMM)のパラメータを埋め込むことで、テキスト入力と視覚入力の両方から3Dフェイスを生成することができる。
FaceGPTは、アプリ内画像からモデルベースのオートエンコーダとして、自己教師型で訓練される。
特に、LLMの隠れ状態は3次元MMパラメータに投影され、その後2次元顔画像として描画され、画像ベース再構成による自己教師あり学習プロセスのガイドとなる。
人間の顔の高価な3Dアノテーションを頼らずに、FaceGPTは一般的なユーザー指示を理解する能力を保持しながら、人間の顔の詳細な理解を得る。
実験の結果,FaceGPTは高品質な3次元顔再構成を実現するだけでなく,汎用的な視覚指導の能力も維持できることがわかった。
さらに、FaceGPTは完全に自己教師され、複雑なテキスト入力に基づいて3D顔を生成する。
関連論文リスト
- Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation
Using only Images [105.92311979305065]
TG-3DFaceは、よりリアルで美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。
TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを達成する。
論文 参考訳(メタデータ) (2023-08-31T14:26:33Z) - DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head
Video Generation [18.511092587156657]
顔画像から高密度な3次元顔形状を学習するための新しい自己教師手法を提案する。
また,画素レベルの不確実性を学習し,幾何学習のためのより信頼性の高い剛体移動画素を知覚する戦略を提案する。
我々は,3D対応のクロスモーダル(e,外見,深度)アテンション機構を開発し,粗い方法で顔のジオメトリーを捉える。
論文 参考訳(メタデータ) (2023-05-10T14:58:33Z) - Generating 2D and 3D Master Faces for Dictionary Attacks with a
Network-Assisted Latent Space Evolution [68.8204255655161]
マスターフェイス(英: master face)とは、人口の比率の高い顔認証をパスする顔画像である。
2次元および3次元の顔認証モデルに対して,これらの顔の最適化を行う。
3Dでは,2次元スタイルGAN2ジェネレータを用いて顔を生成し,深部3次元顔再構成ネットワークを用いて3次元構造を予測する。
論文 参考訳(メタデータ) (2022-11-25T09:15:38Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Realistic face animation generation from videos [2.398608007786179]
3次元顔の再構成と顔のアライメントは、コンピュータビジョンにおける2つの基本的かつ高機能なトピックである。
近年,深層学習モデルを用いて3dmm係数を推定して3d顔形状を再構成する研究が始まっている。
この問題に対処するために、3DMM係数の計算を完全に回避できるエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2021-03-27T20:18:14Z) - Reconstructing A Large Scale 3D Face Dataset for Deep 3D Face
Identification [9.159921061636695]
本稿では,2次元支援型深部3次元顔認証の枠組みを提案する。
特に,大規模な2次元顔データベースから数百万の3次元顔スキャンを再構築することを提案する。
提案手法はFRGC v2.0, Bosphorus, BU-3DFEの3次元顔データベース上で, 最先端のランク1スコアを実現する。
論文 参考訳(メタデータ) (2020-10-16T13:48:38Z) - Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。
まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。
我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文 参考訳(メタデータ) (2020-10-09T06:11:17Z) - StyleRig: Rigging StyleGAN for 3D Control over Portrait Images [81.43265493604302]
StyleGANは、目、歯、髪、コンテキスト(首、肩、背景)のある顔の肖像画を生成する
StyleGANには、顔ポーズ、表情、シーン照明といった3Dで解釈可能なセマンティックフェイスパラメータに対するrigのようなコントロールがない。
3DMMを用いて,事前に訓練された,固定されたStyleGANに対して,顔リグライクな制御を行うための最初の方法を提案する。
論文 参考訳(メタデータ) (2020-03-31T21:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。