論文の概要: ConTEXTure: Consistent Multiview Images to Texture
- arxiv url: http://arxiv.org/abs/2407.10558v1
- Date: Mon, 15 Jul 2024 09:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:40:56.938685
- Title: ConTEXTure: Consistent Multiview Images to Texture
- Title(参考訳): ConTEXTure: テクスチャへの一貫性のあるマルチビューイメージ
- Authors: Jaehoon Ahn, Sumin Cho, Harim Jung, Kibeom Hong, Seonghoon Ban, Moon-Ryul Jung,
- Abstract要約: 複数の視点からの画像を用いて、所定の3次元メッシュのテクスチャマップ/アトラスを作成するために設計された生成ネットワークを導入する。
我々は、Zero123++を使用し、同時に6つの特定視点に対して複数のビュー一貫性画像を生成する。
このアプローチは、バック、サイド、ボトム、トップを含む様々な視点からのレンダリング画像が、視点の不規則性から解放されることを保証する。
- 参考スコア(独自算出の注目度): 1.8142288667655782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ConTEXTure, a generative network designed to create a texture map/atlas for a given 3D mesh using images from multiple viewpoints. The process begins with generating a front-view image from a text prompt, such as 'Napoleon, front view', describing the 3D mesh. Additional images from different viewpoints are derived from this front-view image and camera poses relative to it. ConTEXTure builds upon the TEXTure network, which uses text prompts for six viewpoints (e.g., 'Napoleon, front view', 'Napoleon, left view', etc.). However, TEXTure often generates images for non-front viewpoints that do not accurately represent those viewpoints.To address this issue, we employ Zero123++, which generates multiple view-consistent images for the six specified viewpoints simultaneously, conditioned on the initial front-view image and the depth maps of the mesh for the six viewpoints. By utilizing these view-consistent images, ConTEXTure learns the texture atlas from all viewpoint images concurrently, unlike previous methods that do so sequentially. This approach ensures that the rendered images from various viewpoints, including back, side, bottom, and top, are free from viewpoint irregularities.
- Abstract(参考訳): ConTEXTureは、複数の視点からの画像を用いて、所定の3次元メッシュのテクスチャマップ/アトラスを作成するために設計された生成ネットワークである。
プロセスは、3Dメッシュを記述する"Napoleon, front view"などのテキストプロンプトからフロントビューイメージを生成することから始まります。
異なる視点からの追加画像は、このフロントビューイメージから導き出され、それに対するカメラのポーズが引き起こされる。
ConTEXTureは、テキストプロンプトを6つの視点(例: 'Napoleon, front view' 、 'Napoleon, left view' など)に使用する TEXTure ネットワーク上に構築されている。
しかし、TEXTureは、これらの視点を正確に表現しない非フロント視点の画像を生成することが多く、この問題に対処するために、Zero123++を用いて、6つの特定の視点に対して複数のビュー一貫性のある画像を同時に生成し、最初のフロントビューイメージと6つの視点に対するメッシュの深さマップに条件付けする。
ConTEXTureは、これらのビュー一貫性画像を利用することで、全ての視点画像からテクスチャアトラスを同時に学習する。
このアプローチは、バック、サイド、ボトム、トップを含む様々な視点からのレンダリング画像が、視点の不規則性から解放されることを保証する。
関連論文リスト
- SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Text-guided Controllable Mesh Refinement for Interactive 3D Modeling [48.226234898333]
テキストプロンプトによって案内される入力粗い3Dメッシュに幾何学的詳細を加える新しい手法を提案する。
まず、入力粗い幾何学と入力テキストプロンプトに基づいて、単一のビューRGB画像を生成する。
第2に、新しいマルチビュー正規生成アーキテクチャを用いて、正常画像の6つの異なるビューを共同で生成する。
第3に、すべてのビューに対してメッシュを最適化し、出力として微細で詳細な幾何学を生成する。
論文 参考訳(メタデータ) (2024-06-03T17:59:43Z) - Reference-guided Controllable Inpainting of Neural Radiance Fields [26.296017756560467]
我々は、表示に一貫性があり、制御可能な領域に焦点をあてる。
単眼深度推定器を用いて, 塗装された視界を正確な3D位置へバックプロジェクターする。
非参照非排除領域に対しては,形状と外観の両方をガイドする画像インペインターに基づく手法を考案する。
論文 参考訳(メタデータ) (2023-04-19T14:11:21Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Novel View Synthesis from Single Images via Point Cloud Transformation [19.752722584657796]
提案手法では,物体の形状を捉えるために点雲を推定し,望まれる図形に自由に回転させ,新しい図形に投影する。
入力ビューとターゲットビューを前方にワープし、後方にワープすることで、ネットワークを奥行きの監視なしにエンドツーエンドにトレーニングすることができる。
新しいビュー合成のための明示的な3次元形状として点雲を用いる利点は、3D ShapeNetベンチマークで実験的に検証されている。
論文 参考訳(メタデータ) (2020-09-17T14:13:19Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。