論文の概要: ZeroForge: Feedforward Text-to-Shape Without 3D Supervision
- arxiv url: http://arxiv.org/abs/2306.08183v2
- Date: Fri, 16 Jun 2023 00:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 10:48:44.120501
- Title: ZeroForge: Feedforward Text-to-Shape Without 3D Supervision
- Title(参考訳): ZeroForge:3Dスーパービジョンのないフィードフォワードテキスト・ツー・シェイプ
- Authors: Kelly O. Marshall, Minh Pham, Ameya Joshi, Anushrut Jignasu, Aditya
Balu, Adarsh Krishnamurthy, Chinmay Hegde
- Abstract要約: 両方の落とし穴を避けるゼロショットテキスト・ツー・シェイプ生成のためのアプローチであるZeroForgeを提案する。
オープン・ボキャブラリ・シェイプ・ジェネレーションを実現するためには,既存のフィードフォワード・アプローチのアーキテクチャ的適応を慎重に行う必要がある。
- 参考スコア(独自算出の注目度): 24.558721379714694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art methods for text-to-shape generation either require
supervised training using a labeled dataset of pre-defined 3D shapes, or
perform expensive inference-time optimization of implicit neural
representations. In this work, we present ZeroForge, an approach for zero-shot
text-to-shape generation that avoids both pitfalls. To achieve open-vocabulary
shape generation, we require careful architectural adaptation of existing
feed-forward approaches, as well as a combination of data-free CLIP-loss and
contrastive losses to avoid mode collapse. Using these techniques, we are able
to considerably expand the generative ability of existing feed-forward
text-to-shape models such as CLIP-Forge. We support our method via extensive
qualitative and quantitative evaluations
- Abstract(参考訳): 現在のtext-to-shape生成の最先端手法では、事前に定義された3d形状のラベル付きデータセットを使った教師付きトレーニングが必要か、暗黙のニューラルネットワーク表現の高価な推論時間最適化が必要となる。
本稿では,ゼロショットテキスト・ツー・シェイプ生成手法であるZeroForgeについて述べる。
オープンボキャブラリー形状生成を実現するためには,既存のフィードフォワードアプローチの注意深いアーキテクチャ適応と,データフリーなクリップロスとコントラストロスの組み合わせが必要となる。
これらの技術を用いて、CLIP-Forgeのような既存のフィードフォワードテキスト変換モデルの生成能力を著しく拡張することができる。
我々はこの手法を質的・定量的評価を通じて支援する。
関連論文リスト
- Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
我々は,3次元表現学習と生成学習を深く統合する利点を探るため,Point-MGEと呼ばれる革新的なフレームワークを提案する。
形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。
また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors [79.80916315953374]
本研究では,3次元再構成のための半教師付きフレームワークであるSSP3Dを提案する。
本稿では,現実的なオブジェクト再構成を導くために,注意誘導型プロトタイプ形状先行モジュールを提案する。
実世界のPix3Dデータセットに10%のラベリング比で転送する場合も,本手法は良好に機能する。
論文 参考訳(メタデータ) (2022-09-30T11:19:25Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation [16.59461081771521]
2段階の学習プロセスに基づくゼロショットテキスト・ツー・シェイプ生成のための簡易かつ効果的な手法を提案する。
提案手法は望ましくないゼロショットの一般化を実証するだけでなく,高コストな推論時間最適化も回避する。
論文 参考訳(メタデータ) (2021-10-06T09:55:19Z) - DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes [43.853000396885626]
サンプル3次元形状のシャープな幾何学的特徴を予測するための学習ベースフレームワークを提案する。
個々のパッチの結果を融合させることで、既存のデータ駆動方式では処理できない大きな3Dモデルを処理できる。
論文 参考訳(メタデータ) (2020-11-30T18:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。