論文の概要: Towards Fine-Grained Text-to-3D Quality Assessment: A Benchmark and A Two-Stage Rank-Learning Metric
- arxiv url: http://arxiv.org/abs/2509.23841v1
- Date: Sun, 28 Sep 2025 12:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.480927
- Title: Towards Fine-Grained Text-to-3D Quality Assessment: A Benchmark and A Two-Stage Rank-Learning Metric
- Title(参考訳): 微粒テキスト・ツー・3D品質評価に向けて:ベンチマークと2段階のランクラーニング基準
- Authors: Bingyang Cui, Yujie Zhang, Qi Yang, Zhu Li, Yiling Xu,
- Abstract要約: テキスト・ツー・3D(T23D)生成モデルにより、テキスト・プロンプトから多種多様な高忠実な3Dアセットを合成できるようになった。
既存の課題は信頼性T23D品質評価(T23DQA)の開発を制限している。
合成T23D生成のための総合ベンチマークであるT23D-CompBenchを紹介する。
また,T23DQAの2段階トレーニングによる効果的な評価器である Rank2Score を提案する。
- 参考スコア(独自算出の注目度): 40.31630401986677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Text-to-3D (T23D) generative models have enabled the synthesis of diverse, high-fidelity 3D assets from textual prompts. However, existing challenges restrict the development of reliable T23D quality assessment (T23DQA). First, existing benchmarks are outdated, fragmented, and coarse-grained, making fine-grained metric training infeasible. Moreover, current objective metrics exhibit inherent design limitations, resulting in non-representative feature extraction and diminished metric robustness. To address these limitations, we introduce T23D-CompBench, a comprehensive benchmark for compositional T23D generation. We define five components with twelve sub-components for compositional prompts, which are used to generate 3,600 textured meshes from ten state-of-the-art generative models. A large-scale subjective experiment is conducted to collect 129,600 reliable human ratings across different perspectives. Based on T23D-CompBench, we further propose Rank2Score, an effective evaluator with two-stage training for T23DQA. Rank2Score enhances pairwise training via supervised contrastive regression and curriculum learning in the first stage, and subsequently refines predictions using mean opinion scores to achieve closer alignment with human judgments in the second stage. Extensive experiments and downstream applications demonstrate that Rank2Score consistently outperforms existing metrics across multiple dimensions and can additionally serve as a reward function to optimize generative models. The project is available at https://cbysjtu.github.io/Rank2Score/.
- Abstract(参考訳): テキスト・ツー・3D(T23D)生成モデルの最近の進歩は、テキスト・プロンプトから多種多様な高忠実な3D資産の合成を可能にしている。
しかし、既存の課題は信頼性の高いT23D品質評価(T23DQA)の開発を制限している。
まず、既存のベンチマークは時代遅れ、断片化され、粗粒化され、きめ細かいメートル法トレーニングが実現できない。
さらに、現在の客観的メトリクスは固有の設計上の制限を示し、非表現的特徴抽出とメトリクスのロバスト性は低下する。
これらの制約に対処するため,合成T23D生成のための総合ベンチマークであるT23D-CompBenchを導入する。
合成プロンプトのための12のサブコンポーネントを持つ5つのコンポーネントを定義し,10の最先端生成モデルから3,600のテクスチャメッシュを生成する。
大規模な主観評価実験を行い、129,600人の信頼度を異なる視点で収集した。
T23D-CompBenchに基づいて、T23DQAのための2段階トレーニングを備えた効果的な評価器であるRandon2Scoreを提案する。
Rank2Scoreは、第1段階における教師付きコントラスト回帰とカリキュラム学習によるペアワイズトレーニングを強化し、その後、平均世論スコアを用いて予測を洗練し、第2段階における人間の判断との密接な整合を達成する。
大規模な実験とダウンストリームアプリケーションにより、Randon2Scoreは複数の次元にわたる既存のメトリクスを一貫して上回り、生成モデルを最適化するための報酬関数として機能することを示した。
このプロジェクトはhttps://cbysjtu.github.io/Rank2Score/.comで入手できる。
関連論文リスト
- Multi-Dimensional Quality Assessment for Text-to-3D Assets: Dataset and Model [54.71130068043388]
テキスト・ツー・3Dアセット・ジェネレーションの人気が高まっているにもかかわらず、その評価は十分に検討され研究されていない。
各種テキスト・ツー・3Dアセットに有意な品質差があることから、人間の主観的判断に沿った品質評価モデルの必要性が高まっている。
我々はまず,AIGC-T23DAQAデータベースと呼ばれる,これまでで最大のテキストから3Dのアセット品質評価データベースを構築した。
論文 参考訳(メタデータ) (2025-02-24T07:20:13Z) - Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation [26.0726219629689]
近年,テキスト・ツー・3D生成は目覚ましい進歩を遂げているが,これらの手法の評価はいまだに困難である。
既存のベンチマークには、異なるプロンプトカテゴリと評価次元に関するきめ細かい評価が欠けている。
まず,MATE-3Dという総合ベンチマークを提案する。
ベンチマークには、単一のオブジェクト生成と複数のオブジェクト生成をカバーする、よく設計された8つのプロンプトカテゴリが含まれており、結果として1,280のテクスチャメッシュが生成される。
論文 参考訳(メタデータ) (2024-12-15T12:41:44Z) - GT23D-Bench: A Comprehensive General Text-to-3D Generation Benchmark [111.81516104467039]
GT23D-Benchは、General Text-to-3D (GT23D)の最初の包括的なベンチマークである
我々のデータセットは、各3Dオブジェクトに64ビューの深度マップ、正規マップ、レンダリング画像、粗大なキャプションをアノテートする。
本手法は, テクスチャの忠実度, マルチビューの整合性, 幾何学的正当性を考慮した3次元視覚品質と, 多粒度視覚的3次元表現とのテキストアライメントを測定する。
論文 参考訳(メタデータ) (2024-12-13T09:32:08Z) - A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文 参考訳(メタデータ) (2023-12-04T20:47:48Z) - Text-to-3D with Classifier Score Distillation [80.14832887529259]
クラシファイアフリーガイダンスは最も必須ではなく、補助的なトリックだと考えられている。
我々はこの手法をスコア蒸留 (CSD) と名付け, 生成のための暗黙の分類モデルを用いて解釈できる。
我々は,形状生成,テクスチャ合成,形状編集など,テキストから3Dまでの各種タスクにおけるCSDの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T10:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。