論文の概要: GT23D-Bench: A Comprehensive General Text-to-3D Generation Benchmark
- arxiv url: http://arxiv.org/abs/2412.09997v1
- Date: Fri, 13 Dec 2024 09:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:46.780461
- Title: GT23D-Bench: A Comprehensive General Text-to-3D Generation Benchmark
- Title(参考訳): GT23D-Bench: 総合的なテキストから3D生成ベンチマーク
- Authors: Sitong Su, Xiao Cai, Lianli Gao, Pengpeng Zeng, Qinhong Du, Mengqi Li, Heng Tao Shen, Jingkuan Song,
- Abstract要約: GT23D-Benchは、General Text-to-3D (GT23D)の最初の包括的なベンチマークである
我々のデータセットは、各3Dオブジェクトに64ビューの深度マップ、正規マップ、レンダリング画像、粗大なキャプションをアノテートする。
本手法は, テクスチャの忠実度, マルチビューの整合性, 幾何学的正当性を考慮した3次元視覚品質と, 多粒度視覚的3次元表現とのテキストアライメントを測定する。
- 参考スコア(独自算出の注目度): 111.81516104467039
- License:
- Abstract: Recent advances in General Text-to-3D (GT23D) have been significant. However, the lack of a benchmark has hindered systematic evaluation and progress due to issues in datasets and metrics: 1) The largest 3D dataset Objaverse suffers from omitted annotations, disorganization, and low-quality. 2) Existing metrics only evaluate textual-image alignment without considering the 3D-level quality. To this end, we are the first to present a comprehensive benchmark for GT23D called GT23D-Bench consisting of: 1) a 400k high-fidelity and well-organized 3D dataset that curated issues in Objaverse through a systematical annotation-organize-filter pipeline; and 2) comprehensive 3D-aware evaluation metrics which encompass 10 clearly defined metrics thoroughly accounting for multi-dimension of GT23D. Notably, GT23D-Bench features three properties: 1) Multimodal Annotations. Our dataset annotates each 3D object with 64-view depth maps, normal maps, rendered images, and coarse-to-fine captions. 2) Holistic Evaluation Dimensions. Our metrics are dissected into a) Textual-3D Alignment measures textual alignment with multi-granularity visual 3D representations; and b) 3D Visual Quality which considers texture fidelity, multi-view consistency, and geometry correctness. 3) Valuable Insights. We delve into the performance of current GT23D baselines across different evaluation dimensions and provide insightful analysis. Extensive experiments demonstrate that our annotations and metrics are aligned with human preferences.
- Abstract(参考訳): General Text-to-3D(GT23D)の最近の進歩は顕著である。
しかしながら、ベンチマークの欠如は、データセットとメトリクスの問題による体系的な評価と進捗を妨げる: 1) 最大の3DデータセットであるObjaverseは、省略されたアノテーション、非組織化、低品質に悩まされている。
2)既存の指標は3Dレベルの品質を考慮せずにテキスト画像のアライメントを評価するのみである。
この目的のために,GT23D-Benchと呼ばれるGT23Dの総合的なベンチマークを最初に提示する。1)GT23Dの多次元性を考慮した,明確に定義された10のメトリクスを含む総合的な3D評価指標。
特に、GT23D-Benchには3つの特性がある。
我々のデータセットは、各3Dオブジェクトに64ビューの深度マップ、正規マップ、レンダリング画像、粗大なキャプションをアノテートする。
2【全体的評価】
私たちのメトリクスは切り離されています
a) テキスト3Dアライメントは、多粒度視覚的3D表現とのテキストアライメントを測定し、
ロ テクスチャの忠実性、多視点整合性及び幾何学的正確性を考慮した3次元視覚品質。
3)価値ある洞察。
我々は、様々な評価次元にまたがって現在のGT23Dベースラインの性能を調べ、洞察に富んだ分析を行う。
大規模な実験では、アノテーションとメトリクスが人間の好みと一致していることが示されています。
関連論文リスト
- MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions [27.469346807311574]
テキスト誘導型3D視覚接地(T-3DVG)は、複雑な3Dシーンからの言語クエリに対応する特定のオブジェクトを見つけることを目的としている。
データ収集と3Dポイント・クラウド・ソース・プロセッシングの複雑さから、2Dビジュアル・グラウンドと比較すると、このタスクは現実世界に近づき、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-06-09T13:52:12Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Mono3DVG: 3D Visual Grounding in Monocular Images [12.191320182791483]
外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。
テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:49:59Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes [54.49897326605168]
粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて高品質なパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
実験では,KITTI-360データセット上でのラベル転送方式に対するPanopticNeRF-360の最先端性能を実証した。
論文 参考訳(メタデータ) (2023-09-19T17:54:22Z) - From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction [80.67873933010783]
我々は,MDPが現在,3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていることを論じる。
これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。
本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。
論文 参考訳(メタデータ) (2022-03-15T17:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。