論文の概要: DHQA-4D: Perceptual Quality Assessment of Dynamic 4D Digital Human
- arxiv url: http://arxiv.org/abs/2510.03874v1
- Date: Sat, 04 Oct 2025 16:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.314484
- Title: DHQA-4D: Perceptual Quality Assessment of Dynamic 4D Digital Human
- Title(参考訳): DHQA-4D:動的4Dデジタル人間の知覚的品質評価
- Authors: Yunhao Li, Sijing Wu, Yucheng Zhu, Huiyu Duan, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 我々は,32個の高品質な実走査型4次元メッシュ配列を含む大規模デジタル人文品質評価データセットDHQA-4Dを提案する。
また、テクスチャ化された4Dメッシュと非テクスチャ化された4Dメッシュの両方を評価することができる新しい大規模マルチモーダルモデル(LMM)ベースのアプローチであるDynaMesh-Raterを提案する。
- 参考スコア(独自算出の注目度): 78.54545352497217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of 3D scanning and reconstruction technologies, dynamic digital human avatars based on 4D meshes have become increasingly popular. A high-precision dynamic digital human avatar can be applied to various fields such as game production, animation generation, and remote immersive communication. However, these 4D human avatar meshes are prone to being degraded by various types of noise during the processes of collection, compression, and transmission, thereby affecting the viewing experience of users. In light of this fact, quality assessment of dynamic 4D digital humans becomes increasingly important. In this paper, we first propose a large-scale dynamic digital human quality assessment dataset, DHQA-4D, which contains 32 high-quality real-scanned 4D human mesh sequences, 1920 distorted textured 4D human meshes degraded by 11 textured distortions, as well as their corresponding textured and non-textured mean opinion scores (MOSs). Equipped with DHQA-4D dataset, we analyze the influence of different types of distortion on human perception for textured dynamic 4D meshes and non-textured dynamic 4D meshes. Additionally, we propose DynaMesh-Rater, a novel large multimodal model (LMM) based approach that is able to assess both textured 4D meshes and non-textured 4D meshes. Concretely, DynaMesh-Rater elaborately extracts multi-dimensional features, including visual features from a projected 2D video, motion features from cropped video clips, and geometry features from the 4D human mesh to provide comprehensive quality-related information. Then we utilize a LMM model to integrate the multi-dimensional features and conduct a LoRA-based instruction tuning technique to teach the LMM model to predict the quality scores. Extensive experimental results on the DHQA-4D dataset demonstrate the superiority of our DynaMesh-Rater method over previous quality assessment methods.
- Abstract(参考訳): 3Dスキャンと再構築技術の急速な発展に伴い、4Dメッシュに基づく動的デジタル人間アバターがますます人気を集めている。
ゲーム制作、アニメーション生成、リモート没入型コミュニケーションなどの様々な分野に、高精度な動的デジタル人間アバターを適用することができる。
しかし、これらの4次元アバターメッシュは、収集、圧縮、送信の過程で様々な種類のノイズによって劣化しがちであり、ユーザの視聴体験に影響を与える。
この事実を踏まえ、ダイナミックな4Dデジタル人間の品質評価がますます重要になる。
本稿では,DHQA-4Dという大規模動的デジタル人文品質評価データセットを提案する。DHQA-4Dは,高品質な実走査型4次元メッシュシーケンスを32個,1920年に変形したテクスチャ付き4次元人文メッシュを11個のテクスチャ付き歪みで劣化させ,それに対応するテクスチャ付きおよび非テクスチャ付き平均評価スコア(MOS)を含む。
DHQA-4Dデータセットを用いて、テクスチャ化された動的4Dメッシュと非テクスチャ化された動的4Dメッシュに対する人間の知覚に対する様々な種類の歪みの影響を分析する。
さらに、テクスチャ化された4Dメッシュと非テクスチャ化された4Dメッシュの両方を評価することができる新しい大規模マルチモーダルモデル(LMM)ベースのアプローチであるDynaMesh-Raterを提案する。
具体的には、DynaMesh-Raterは、投影された2Dビデオの視覚的特徴、トリミングされたビデオクリップのモーション特徴、および4Dヒューマンメッシュの幾何学的特徴など、多次元の特徴を精巧に抽出し、包括的な品質関連情報を提供する。
次に,LMMモデルを用いて多次元特徴を統合するとともに,LoRAに基づく命令チューニング手法により,LMMモデルに品質スコアを予測させる。
DHQA-4Dデータセットの大規模な実験結果から,従来の品質評価法よりもDynaMesh-Rater法の方が優れていることが示された。
関連論文リスト
- 4DNeX: Feed-Forward 4D Generative Modeling Made Easy [51.79072580042173]
1つの画像から4D(動的3D)シーン表現を生成するための最初のフィードフォワードフレームワークである4DNeXを提案する。
計算集約的な最適化やマルチフレームビデオ入力を必要とする既存の方法とは対照的に、4DNeXは効率的でエンドツーエンドの画像から4D生成を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:55Z) - MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image [8.22464804794448]
静止画像から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。
MVG4Dのコアとなるのは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成するイメージマトリックスモジュールである。
本手法は, 時間的一貫性, 幾何学的忠実度, 視覚的リアリズムを効果的に向上させ, 動きの不連続性や背景劣化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-07-24T12:48:14Z) - Advances in 4D Generation: A Survey [23.041037534410773]
4D生成により、インタラクティブで没入的な体験がより豊かになる。
急速な進歩にもかかわらず、この分野には4D表現、生成フレームワーク、基本的なパラダイム、それに直面する中核的な技術的課題の統一的な理解が欠けている。
この調査は、4D世代環境の体系的かつ詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-03-18T17:59:51Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z) - HUMAN4D: A Human-Centric Multimodal Dataset for Motions and Immersive
Media [16.711606354731533]
HUMAN4Dは大規模かつマルチモーダルな4Dデータセットで、同時にキャプチャされたさまざまな人間の活動を含む。
我々はHUMAN4Dによる最新の人間のポーズ推定と3Dポーズ推定手法を用いてベンチマークを行う。
論文 参考訳(メタデータ) (2021-10-14T09:03:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。