論文の概要: Multi-Dimensional Quality Assessment for Text-to-3D Assets: Dataset and Model
- arxiv url: http://arxiv.org/abs/2502.16915v1
- Date: Mon, 24 Feb 2025 07:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:01.905614
- Title: Multi-Dimensional Quality Assessment for Text-to-3D Assets: Dataset and Model
- Title(参考訳): テキスト・ツー・3次元アセットの多次元品質評価:データセットとモデル
- Authors: Kang Fu, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min, Jia Wang, Guangtao Zhai,
- Abstract要約: テキスト・ツー・3Dアセット・ジェネレーションの人気が高まっているにもかかわらず、その評価は十分に検討され研究されていない。
各種テキスト・ツー・3Dアセットに有意な品質差があることから、人間の主観的判断に沿った品質評価モデルの必要性が高まっている。
我々はまず,AIGC-T23DAQAデータベースと呼ばれる,これまでで最大のテキストから3Dのアセット品質評価データベースを構築した。
- 参考スコア(独自算出の注目度): 54.71130068043388
- License:
- Abstract: Recent advancements in text-to-image (T2I) generation have spurred the development of text-to-3D asset (T23DA) generation, leveraging pretrained 2D text-to-image diffusion models for text-to-3D asset synthesis. Despite the growing popularity of text-to-3D asset generation, its evaluation has not been well considered and studied. However, given the significant quality discrepancies among various text-to-3D assets, there is a pressing need for quality assessment models aligned with human subjective judgments. To tackle this challenge, we conduct a comprehensive study to explore the T23DA quality assessment (T23DAQA) problem in this work from both subjective and objective perspectives. Given the absence of corresponding databases, we first establish the largest text-to-3D asset quality assessment database to date, termed the AIGC-T23DAQA database. This database encompasses 969 validated 3D assets generated from 170 prompts via 6 popular text-to-3D asset generation models, and corresponding subjective quality ratings for these assets from the perspectives of quality, authenticity, and text-asset correspondence, respectively. Subsequently, we establish a comprehensive benchmark based on the AIGC-T23DAQA database, and devise an effective T23DAQA model to evaluate the generated 3D assets from the aforementioned three perspectives, respectively.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ・ジェネレーション(T2I)の進歩により、テキスト・トゥ・3Dアセット・ジェネレーション(T23DA)の開発が加速し、事前訓練された2次元テキスト・ツー・イメージ拡散モデルを利用してテキスト・ツー・3Dアセット・セマンティクスを合成している。
テキスト・ツー・3Dアセット・ジェネレーションの人気が高まっているにもかかわらず、その評価は十分に検討され研究されていない。
しかし, テキスト・ツー・3Dアセットに有意な品質差があることから, 人間の主観的判断に沿った品質評価モデルの必要性が高まっている。
この課題に対処するため,本研究におけるT23DA品質評価(T23DAQA)の課題を主観的,客観的両面から総合的に検討する。
対応するデータベースが存在しないため、我々はAIGC-T23DAQAデータベースと呼ばれる、これまでで最大のテキストから3Dのアセット品質評価データベースを構築した。
本データベースは、170のプロンプトから6つの一般的なテキスト・ツー・3Dアセット生成モデルを通じて生成された969の検証済み3Dアセットと、これらアセットの主観的品質評価を、それぞれ品質、信頼性、テキスト・アセット対応の観点から含む。
その後、AIGC-T23DAQAデータベースに基づく総合ベンチマークを構築し、上記の3つの視点から生成された3D資産を評価する効果的なT23DAQAモデルを考案した。
関連論文リスト
- Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation [26.0726219629689]
近年,テキスト・ツー・3D生成は目覚ましい進歩を遂げているが,これらの手法の評価はいまだに困難である。
既存のベンチマークには、異なるプロンプトカテゴリと評価次元に関するきめ細かい評価が欠けている。
まず,MATE-3Dという総合ベンチマークを提案する。
ベンチマークには、単一のオブジェクト生成と複数のオブジェクト生成をカバーする、よく設計された8つのプロンプトカテゴリが含まれており、結果として1,280のテクスチャメッシュが生成される。
論文 参考訳(メタデータ) (2024-12-15T12:41:44Z) - GT23D-Bench: A Comprehensive General Text-to-3D Generation Benchmark [111.81516104467039]
GT23D-Benchは、General Text-to-3D (GT23D)の最初の包括的なベンチマークである
我々のデータセットは、各3Dオブジェクトに64ビューの深度マップ、正規マップ、レンダリング画像、粗大なキャプションをアノテートする。
本手法は, テクスチャの忠実度, マルチビューの整合性, 幾何学的正当性を考慮した3次元視覚品質と, 多粒度視覚的3次元表現とのテキストアライメントを測定する。
論文 参考訳(メタデータ) (2024-12-13T09:32:08Z) - 3DGCQA: A Quality Assessment Database for 3D AI-Generated Contents [50.730468291265886]
本稿では,テキスト・ツー・3D生成手法を用いて構築した新しい3DGC品質評価データセットである3DGCQAを提案する。
可視化によって、生成された3DGCに6つの共通の歪みカテゴリが存在することが直感的に明らかになる。
主観的品質評価は評価者によって行われ、その評価は異なる生成方法における品質の顕著な変動を示す。
いくつかの客観的品質評価アルゴリズムが3DGCQAデータセットでテストされている。
論文 参考訳(メタデータ) (2024-09-11T12:47:40Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Advancing Zero-Shot Digital Human Quality Assessment through
Text-Prompted Evaluation [60.873105678086404]
SJTU-H3Dは、フルボディのデジタル人間向けに設計された主観的品質評価データベースである。
高品質なデジタル人間40人と、7種類の歪みで生成された1,120個のラベル付き歪曲した人物からなる。
論文 参考訳(メタデータ) (2023-07-06T06:55:30Z) - AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment [62.8834581626703]
我々はこれまでに最も包括的な主観的品質データベース AGIQA-3K を構築している。
このデータベース上でベンチマーク実験を行い、現在の画像品質評価(IQA)モデルと人間の知覚との整合性を評価する。
我々は、AGIQA-3Kの微粒な主観的スコアが、その後のAGI品質モデルにヒトの主観的知覚機構に適合するよう促すと信じている。
論文 参考訳(メタデータ) (2023-06-07T18:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。