論文の概要: Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into
3D, alleviate Janus problem and Beyond
- arxiv url: http://arxiv.org/abs/2304.04968v3
- Date: Wed, 26 Apr 2023 13:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 17:10:21.000501
- Title: Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into
3D, alleviate Janus problem and Beyond
- Title(参考訳): 負のプロンプトアルゴリズムを再想像する: 2次元拡散を3Dに変換し、ヤヌス問題を緩和する
- Authors: Mohammadreza Armandpour, Ali Sadeghian, Huangjie Zheng, Amir
Sadeghian, Mingyuan Zhou
- Abstract要約: 本稿では,現在の負のプロンプトアルゴリズムの欠点に対処するために,スコア空間の幾何学的性質を活用する新しいアルゴリズムPerp-Negを提案する。
Perp-Negはモデルのトレーニングや微調整を一切必要としない。
ユーザが不要な概念を編集できるようにすることで、Perp-Negは画像生成の柔軟性を向上することを示した。
- 参考スコア(独自算出の注目度): 49.94798429552442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although text-to-image diffusion models have made significant strides in
generating images from text, they are sometimes more inclined to generate
images like the data on which the model was trained rather than the provided
text. This limitation has hindered their usage in both 2D and 3D applications.
To address this problem, we explored the use of negative prompts but found that
the current implementation fails to produce desired results, particularly when
there is an overlap between the main and negative prompts. To overcome this
issue, we propose Perp-Neg, a new algorithm that leverages the geometrical
properties of the score space to address the shortcomings of the current
negative prompts algorithm. Perp-Neg does not require any training or
fine-tuning of the model. Moreover, we experimentally demonstrate that Perp-Neg
provides greater flexibility in generating images by enabling users to edit out
unwanted concepts from the initially generated images in 2D cases. Furthermore,
to extend the application of Perp-Neg to 3D, we conducted a thorough
exploration of how Perp-Neg can be used in 2D to condition the diffusion model
to generate desired views, rather than being biased toward the canonical views.
Finally, we applied our 2D intuition to integrate Perp-Neg with the
state-of-the-art text-to-3D (DreamFusion) method, effectively addressing its
Janus (multi-head) problem. Our project page is available at
https://Perp-Neg.github.io/
- Abstract(参考訳): テキスト間の拡散モデルは、テキストから画像を生成するために大きな進歩を遂げてきたが、提供されるテキストではなく、モデルがトレーニングされたデータのような画像を生成する傾向が強かった。
この制限は、2Dアプリケーションと3Dアプリケーションの両方での使用を妨げる。
この問題に対処するため,我々は負のプロンプトの使用を検討したが,現在の実装では望ましい結果が得られず,特に主プロンプトと負のプロンプトが重複していることが判明した。
この問題を克服するために,スコア空間の幾何学的性質を活かし,現在の負のプロンプトアルゴリズムの欠点に対処する新しいアルゴリズムであるperp-negを提案する。
Perp-Negはモデルのトレーニングや微調整を一切必要としない。
さらに,初期生成画像から不要な概念を2Dケースで編集可能にすることにより,Perp-Negは画像生成の柔軟性を向上することを示した。
さらに,3dへのperp-negの適用を拡大するために,2dでのperp-negの利用法を徹底的に検討し,標準的視点に偏ることなく,拡散モデルを用いて所望のビューを生成するように条件づけた。
最後に,2次元直観を用いてPerp-Negを最先端のテキスト・トゥ・3D(DreamFusion)手法に統合し,Janus(マルチヘッド)問題を効果的に解決した。
プロジェクトページはhttps://perp-neg.github.io/で閲覧できます。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - TextMesh: Generation of Realistic 3D Meshes From Text Prompts [56.2832907275291]
リアルな3Dメッシュを生成するための新しい手法を提案する。
この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。
論文 参考訳(メタデータ) (2023-04-24T20:29:41Z) - Debiasing Scores and Prompts of 2D Diffusion for View-consistent
Text-to-3D Generation [38.032010026146146]
ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。
最も顕著な問題の1つは、オブジェクトの最も標準的なビューが他のビューに現れるJanus問題である。
提案手法は, 生成した3次元オブジェクトの現実性を著しく低減し, 2次元拡散モデルへの忠実さと, オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-03-27T17:31:13Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。