論文の概要: LMM4Gen3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs
- arxiv url: http://arxiv.org/abs/2504.20466v1
- Date: Tue, 29 Apr 2025 07:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.777876
- Title: LMM4Gen3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs
- Title(参考訳): LMM4Gen3DHF:LMMを用いたマルチモーダル3次元顔生成のベンチマークと評価
- Authors: Woo Yi Yang, Jiarui Wang, Sijing Wu, Huiyu Duan, Yuxin Zhu, Liu Yang, Kang Fu, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: LMME3DHFは3DHFの評価基準として,品質および信頼性スコア予測,歪み認識型視覚質問応答,歪み認識型サリエンシ予測を提案する。
実験結果から, LMME3DHFは, 従来の手法を上回り, 人間の顔の精度を正確に予測できることがわかった。
- 参考スコア(独自算出の注目度): 48.534851709853534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement in generative artificial intelligence have enabled the creation of 3D human faces (HFs) for applications including media production, virtual reality, security, healthcare, and game development, etc. However, assessing the quality and realism of these AI-generated 3D human faces remains a significant challenge due to the subjective nature of human perception and innate perceptual sensitivity to facial features. To this end, we conduct a comprehensive study on the quality assessment of AI-generated 3D human faces. We first introduce Gen3DHF, a large-scale benchmark comprising 2,000 videos of AI-Generated 3D Human Faces along with 4,000 Mean Opinion Scores (MOS) collected across two dimensions, i.e., quality and authenticity, 2,000 distortion-aware saliency maps and distortion descriptions. Based on Gen3DHF, we propose LMME3DHF, a Large Multimodal Model (LMM)-based metric for Evaluating 3DHF capable of quality and authenticity score prediction, distortion-aware visual question answering, and distortion-aware saliency prediction. Experimental results show that LMME3DHF achieves state-of-the-art performance, surpassing existing methods in both accurately predicting quality scores for AI-generated 3D human faces and effectively identifying distortion-aware salient regions and distortion types, while maintaining strong alignment with human perceptual judgments. Both the Gen3DHF database and the LMME3DHF will be released upon the publication.
- Abstract(参考訳): 生成人工知能の急速な進歩により、メディア制作、バーチャルリアリティー、セキュリティ、ヘルスケア、ゲーム開発などのアプリケーションのための3Dヒューマンフェイス(HF)の開発が可能になった。
しかし、これらのAIによって生成される人間の顔の品質と現実性を評価することは、人間の知覚の主観的性質と、顔の特徴に対する知覚的感受性により、依然として重要な課題である。
そこで我々は,AIによって生成される人間の顔の品質評価に関する総合的研究を行った。
Gen3DHFは、AIによって生成された2000の人間の顔のビデオと4000のMean Opinion Scores(MOS)からなる大規模なベンチマークであり、品質と信頼性、2000の歪み対応サリエンシマップと歪み記述である。
Gen3DHFをベースとした大規模マルチモーダルモデル(LMM)に基づく3DHFの評価手法LMME3DHFを提案する。
実験結果から, LMME3DHFは, 人間の3次元顔における品質スコアを精度良く予測し, 歪みを意識したサリエント領域や歪みタイプを効果的に同定し, 人間の知覚的判断との強い整合性を保ちながら, 最先端の性能を達成することが示唆された。
Gen3DHF データベースと LMME3DHF はいずれも、出版時にリリースされる。
関連論文リスト
- SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。
我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。
我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文 参考訳(メタデータ) (2025-04-09T15:38:18Z) - 3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models [94.48803082248872]
3D世代は急速に進歩しているが、3D評価の開発はペースを保っていない。
大規模人選好データセット3DGen-Benchを開発した。
次に、CLIPベースのスコアモデルである3DGen-ScoreとMLLMベースの自動評価器である3DGen-Evalを訓練する。
論文 参考訳(メタデータ) (2025-03-27T17:53:00Z) - GaussianIP: Identity-Preserving Realistic 3D Human Generation via Human-Centric Diffusion Prior [25.72805054203982]
テキストと画像のプロンプトから現実的な3D人物を識別する2段階のフレームワークを提案する。
私たちの中核となる洞察は、人中心の知識を活用して生成プロセスを促進することです。
実験により、ガウシアンIPは視覚的品質とトレーニング効率の両方で既存の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T07:16:43Z) - GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data [61.05815629606135]
高忠実度3Dモデルを構築するのが難しい課題です。
GeneMANは高品質な人間のデータを総合的に収集する。
GeneMANは、単一の画像入力から高品質な3Dモデルを生成することができ、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-27T18:59:54Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - A No-Reference Quality Assessment Method for Digital Human Head [56.17852258306602]
我々は、デジタルヒューマン品質評価(DHQA)を扱うトランスフォーマーに基づく新しいノリフレクション(NR)手法を開発した。
具体的には、デジタル人間の前方2次元投影を入力として描画し、特徴抽出に視覚変換器(ViT)を用いる。
次に,歪み型を共同分類し,デジタル人間の知覚品質レベルを予測するマルチタスクモジュールを設計する。
論文 参考訳(メタデータ) (2023-10-25T16:01:05Z) - Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using
Pixel-aligned Reconstruction Priors [56.192682114114724]
Get3DHumanは、生成された結果のリアリズムと多様性を大幅に向上させる、新しい3Dヒューマンフレームワークである。
我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。
論文 参考訳(メタデータ) (2023-02-02T15:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。