論文の概要: Illusion3D: 3D Multiview Illusion with 2D Diffusion Priors
- arxiv url: http://arxiv.org/abs/2412.09625v1
- Date: Thu, 12 Dec 2024 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:03.518445
- Title: Illusion3D: 3D Multiview Illusion with 2D Diffusion Priors
- Title(参考訳): Illusion3D: 2D Diffusion Priors を用いた 3D Multiview Illusion
- Authors: Yue Feng, Vaibhav Sanjay, Spencer Lutz, Badour AlBahar, Songwei Ge, Jia-Bin Huang,
- Abstract要約: ユーザが提供するテキストプロンプトや画像に基づいて、3次元のマルチビューイリュージョンを作成するための,シンプルで効果的なアプローチを提案する。
本手法は,事前学習したテキスト・画像拡散モデルを用いて,ニューラル3次元表現のテクスチャと形状を最適化する。
我々は,生成した3次元マルチビューイリュージョンの品質を向上させるために,いくつかの手法を開発した。
- 参考スコア(独自算出の注目度): 19.58299058678772
- License:
- Abstract: Automatically generating multiview illusions is a compelling challenge, where a single piece of visual content offers distinct interpretations from different viewing perspectives. Traditional methods, such as shadow art and wire art, create interesting 3D illusions but are limited to simple visual outputs (i.e., figure-ground or line drawing), restricting their artistic expressiveness and practical versatility. Recent diffusion-based illusion generation methods can generate more intricate designs but are confined to 2D images. In this work, we present a simple yet effective approach for creating 3D multiview illusions based on user-provided text prompts or images. Our method leverages a pre-trained text-to-image diffusion model to optimize the textures and geometry of neural 3D representations through differentiable rendering. When viewed from multiple angles, this produces different interpretations. We develop several techniques to improve the quality of the generated 3D multiview illusions. We demonstrate the effectiveness of our approach through extensive experiments and showcase illusion generation with diverse 3D forms.
- Abstract(参考訳): 視覚コンテンツの一片が異なる視点から異なる解釈を提供するという、マルチビューイリュージョンの自動生成は魅力的な課題である。
シャドウアートやワイヤーアートのような伝統的な手法は興味深い3Dイリュージョンを作り出すが、単純な視覚的なアウトプット(図形や線画など)に限定され、芸術的表現力や実用的汎用性を制限する。
最近の拡散型イリュージョン生成法はより複雑な設計を生成できるが、2次元画像に限られる。
本研究では,ユーザが提供するテキストプロンプトや画像に基づく3次元マルチビューイリュージョンを作成するための,シンプルかつ効果的なアプローチを提案する。
本手法は,事前学習したテキスト・画像拡散モデルを用いて,表現のテクスチャと形状を微分可能レンダリングにより最適化する。
複数の角度から見ると、これは異なる解釈を生み出す。
我々は,生成した3次元マルチビューイリュージョンの品質を向上させるために,いくつかの手法を開発した。
提案手法の有効性を実験的に検証し, 多様な3次元形状の錯覚生成実験を行った。
関連論文リスト
- Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures [80.047065473698]
幾何学の忠実度を高めたUltrAvatarと呼ばれる新しい3次元アバター生成手法を提案し,光を必要とせずに物理ベースレンダリング(PBR)テクスチャの質を向上する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-01-20T01:55:17Z) - Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。
我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。
我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文 参考訳(メタデータ) (2023-12-07T08:58:33Z) - Diffusion Illusions: Hiding Images in Plain Sight [37.87050866208039]
拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。
我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。
これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2023-12-06T18:59:18Z) - Wired Perspectives: Multi-View Wire Art Embraces Generative AI [89.99145586890103]
私たちは、誰もが簡単にMVWAを作れるAIシステムDreamWireを紹介します。
ユーザーはテキストのプロンプトやスクリブルを通じてビジョンを表現し、複雑な3Dワイヤー組織から解放する。
論文 参考訳(メタデータ) (2023-11-26T21:09:00Z) - Single-Image 3D Human Digitization with Shape-Guided Diffusion [31.99621159464388]
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。
単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T18:59:56Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion
Prior [36.40582157854088]
本研究では,1枚の画像のみから高忠実度3Dコンテンツを作成する問題について検討する。
我々は、よく訓練された2D拡散モデルからの事前知識を活用し、3D生成のための3D認識監視として機能する。
本手法は,汎用オブジェクトの単一画像から高品質な3D作成を実現するための最初の試みであり,テキスト・ツー・3D作成やテクスチャ編集などの様々な応用を可能にする。
論文 参考訳(メタデータ) (2023-03-24T17:54:22Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - 3D-GIF: 3D-Controllable Object Generation via Implicit Factorized
Representations [31.095503715696722]
本稿では、ビュー非依存かつ光異方性のある因子化表現と、ランダムにサンプリングされた光条件によるトレーニングスキームを提案する。
因子化表現,再照明画像,アルベドテクスチャメッシュを可視化することで,本手法の優位性を実証する。
これは、追加のラベルや仮定なしで、未提示の2Dイメージでアルベドテクスチャメッシュを抽出する最初の作業である。
論文 参考訳(メタデータ) (2022-03-12T15:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。