Fugu-MT 論文翻訳(概要): Retrieval-Augmented Score Distillation for Text-to-3D Generation

論文の概要: Retrieval-Augmented Score Distillation for Text-to-3D Generation

arxiv url: http://arxiv.org/abs/2402.02972v1
Date: Mon, 5 Feb 2024 12:50:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 16:07:54.112365
Title: Retrieval-Augmented Score Distillation for Text-to-3D Generation
Title（参考訳）: テキストから3次元生成のための検索型スコア蒸留
Authors: Junyoung Seo, Susung Hong, Wooseok Jang, In\`es Hyeonsu Kim, Minseop Kwak, Doyup Lee, Seungryong Kim
Abstract要約: テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。我々はRetDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
参考スコア（独自算出の注目度）: 32.105318004273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-3D generation has achieved significant success by incorporating powerful 2D diffusion models, but insufficient 3D prior knowledge also leads to the inconsistency of 3D geometry. Recently, since large-scale multi-view datasets have been released, fine-tuning the diffusion model on the multi-view datasets becomes a mainstream to solve the 3D inconsistency problem. However, it has confronted with fundamental difficulties regarding the limited quality and diversity of 3D data, compared with 2D data. To sidestep these trade-offs, we explore a retrieval-augmented approach tailored for score distillation, dubbed RetDream. We postulate that both expressiveness of 2D diffusion models and geometric consistency of 3D assets can be fully leveraged by employing the semantically relevant assets directly within the optimization process. To this end, we introduce novel framework for retrieval-based quality enhancement in text-to-3D generation. We leverage the retrieved asset to incorporate its geometric prior in the variational objective and adapt the diffusion model's 2D prior toward view consistency, achieving drastic improvements in both geometry and fidelity of generated scenes. We conduct extensive experiments to demonstrate that RetDream exhibits superior quality with increased geometric consistency. Project page is available at https://ku-cvlab.github.io/RetDream/.
Abstract（参考訳）: テキスト・ツー・3D生成は強力な2次元拡散モデルを導入することで大きな成功を収めたが、3次元幾何の不整合も生んでいる。近年,大規模マルチビューデータセットがリリースされ,マルチビューデータセット上での拡散モデルの微調整が主流となり,3次元不整合問題を解決する。しかし, 2dデータと比較して, 3dデータの品質と多様性の制限に関して, 根本的な困難に直面している。これらのトレードオフを横取りするために、RetDreamと呼ばれるスコア蒸留に適した検索強化アプローチを検討する。 2次元拡散モデルの表現性と3次元資産の幾何学的整合性は、最適化プロセス内で意味論的に関連する資産を直接利用することによって、完全に活用できると仮定する。そこで本研究では,テキスト3d生成における検索ベース品質向上のための新しい枠組みを提案する。得られたアセットを利用して,その幾何学的先行を変分目標に取り入れ,拡散モデルの2次元先行をビュー一貫性に適合させ,生成したシーンの幾何と忠実性の両方において劇的な改善を実現した。我々はRetDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。プロジェクトページはhttps://ku-cvlab.github.io/retdream/。

関連論文リスト

Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。 GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文参考訳（メタデータ） (2024-12-12T17:59:03Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文参考訳（メタデータ） (2023-12-11T18:59:18Z)
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文参考訳（メタデータ） (2023-12-07T10:00:04Z)
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文参考訳（メタデータ） (2023-11-30T07:23:00Z)
SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D [40.088688751115214]
事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
論文参考訳（メタデータ） (2023-10-04T05:59:50Z)
EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-25T07:39:26Z)
Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。最近、研究者は焦点を2Dから3Dにシフトし始めた。 3Dデータの表現は、非常に大きな課題をもたらします。
論文参考訳（メタデータ） (2022-10-27T17:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。