論文の概要: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation
- arxiv url: http://arxiv.org/abs/2110.02624v1
- Date: Wed, 6 Oct 2021 09:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 00:58:47.828805
- Title: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation
- Title(参考訳): CLIP-Forge: ゼロショットテキスト・ツー・シェイプ生成を目指す
- Authors: Aditya Sanghi and Hang Chu and Joseph G. Lambourne and Ye Wang and
Chin-Yi Cheng and Marco Fumero
- Abstract要約: 2段階の学習プロセスに基づくゼロショットテキスト・ツー・シェイプ生成のための簡易かつ効果的な手法を提案する。
提案手法は望ましくないゼロショットの一般化を実証するだけでなく,高コストな推論時間最適化も回避する。
- 参考スコア(独自算出の注目度): 16.59461081771521
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While recent progress has been made in text-to-image generation,
text-to-shape generation remains a challenging problem due to the
unavailability of paired text and shape data at a large scale. We present a
simple yet effective method for zero-shot text-to-shape generation based on a
two-stage training process, which only depends on an unlabelled shape dataset
and a pre-trained image-text network such as CLIP. Our method not only
demonstrates promising zero-shot generalization, but also avoids expensive
inference time optimization and can generate multiple shapes for a given text.
- Abstract(参考訳): 近年,テキスト対画像生成が進んでいるが,テキスト対形状生成は,大規模にテキストと形状データを組み合わせることができないため,依然として課題となっている。
本稿では,2段階の学習プロセスに基づくゼロショットテキスト対形状生成のための簡易かつ効果的な手法を提案する。
提案手法は, 有望なゼロショット一般化を示すだけでなく, 高価な推論時間最適化を回避し, 与えられたテキストに対して複数の形状を生成できる。
関連論文リスト
- EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - ZeroForge: Feedforward Text-to-Shape Without 3D Supervision [24.558721379714694]
両方の落とし穴を避けるゼロショットテキスト・ツー・シェイプ生成のためのアプローチであるZeroForgeを提案する。
オープン・ボキャブラリ・シェイプ・ジェネレーションを実現するためには,既存のフィードフォワード・アプローチのアーキテクチャ的適応を慎重に行う必要がある。
論文 参考訳(メタデータ) (2023-06-14T00:38:14Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。