論文の概要: T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2310.02977v2
- Date: Wed, 17 Apr 2024 09:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:30:24.149436
- Title: T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation
- Title(参考訳): T$^3$Bench: テキストから3D生成におけるベンチマークの最新動向
- Authors: Yuze He, Yushi Bai, Matthieu Lin, Wang Zhao, Yubin Hu, Jenny Sheng, Ran Yi, Juanzi Li, Yong-Jin Liu,
- Abstract要約: テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
- 参考スコア(独自算出の注目度): 52.029698642883226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods in text-to-3D leverage powerful pretrained diffusion models to optimize NeRF. Notably, these methods are able to produce high-quality 3D scenes without training on 3D data. Due to the open-ended nature of the task, most studies evaluate their results with subjective case studies and user experiments, thereby presenting a challenge in quantitatively addressing the question: How has current progress in Text-to-3D gone so far? In this paper, we introduce T$^3$Bench, the first comprehensive text-to-3D benchmark containing diverse text prompts of three increasing complexity levels that are specially designed for 3D generation. To assess both the subjective quality and the text alignment, we propose two automatic metrics based on multi-view images produced by the 3D contents. The quality metric combines multi-view text-image scores and regional convolution to detect quality and view inconsistency. The alignment metric uses multi-view captioning and GPT-4 evaluation to measure text-3D consistency. Both metrics closely correlate with different dimensions of human judgments, providing a paradigm for efficiently evaluating text-to-3D models. The benchmarking results, shown in Fig. 1, reveal performance differences among an extensive 10 prevalent text-to-3D methods. Our analysis further highlights the common struggles for current methods on generating surroundings and multi-object scenes, as well as the bottleneck of leveraging 2D guidance for 3D generation. Our project page is available at: https://t3bench.com.
- Abstract(参考訳): テキスト・トゥ・3Dの最近の手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
特に、これらの手法は3Dデータをトレーニングすることなく高品質な3Dシーンを作成できる。
課題のオープンな性質のため、ほとんどの研究は主観的なケーススタディとユーザ実験で結果を評価しており、この疑問に定量的に対処する上での課題が提示されている。
本稿では,T$^3$Benchについて紹介する。T$^3$Benchは,3次元生成に特化して設計された3つの複雑さレベルの多種多様なテキストプロンプトを含む,最初の総合的なテキスト・ツー・3Dベンチマークである。
主観的品質とテキストアライメントの両方を評価するため、3Dコンテンツから生成された多視点画像に基づく2つの自動メトリクスを提案する。
品質指標は、多視点テキスト画像スコアと地域畳み込みを組み合わせて、品質と不整合を検出する。
アライメントメトリックは、テキスト3Dの一貫性を測定するために、マルチビューキャプションとGPT-4評価を使用する。
どちらの指標も人間の判断の異なる次元と密接に相関し、テキストから3Dモデルを評価するためのパラダイムを提供する。
ベンチマークの結果は、Fig 1で示された。
本分析は, 周辺環境と多目的シーンの生成における現在の手法と, 3次元生成における2次元ガイダンスの活用のボトルネックを更に強調するものである。
私たちのプロジェクトページは、https://t3bench.com.comで公開されています。
関連論文リスト
- SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - ControlDreamer: Blending Geometry and Style in Text-to-3D [34.92628800597151]
我々は、慎重にキュレートされたテキストコーパスからデータセットに基づいて訓練された、新しい深度対応多視点拡散モデルであるMulti-view ControlNetを紹介する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
論文 参考訳(メタデータ) (2023-12-02T13:04:54Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。