論文の概要: Cycle-Consistent Generative Rendering for 2D-3D Modality Translation
- arxiv url: http://arxiv.org/abs/2011.08026v1
- Date: Mon, 16 Nov 2020 15:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:49:36.864325
- Title: Cycle-Consistent Generative Rendering for 2D-3D Modality Translation
- Title(参考訳): 2次元3次元モダリティ変換のためのサイクル一貫性生成レンダリング
- Authors: Tristan Aumentado-Armstrong, Alex Levinshtein, Stavros Tsogkas,
Konstantinos G. Derpanis, and Allan D. Jepson
- Abstract要約: 我々は、3Dオブジェクトのリアルなレンダリングを生成し、画像からリアルな3D形状を推測するモジュールを学習する。
生成ドメイン翻訳の手法を利用することで、弱い監視しか必要としない学習アルゴリズムを不適切なデータで定義することができる。
得られたモデルは、2D画像から3D形状、ポーズ、テクスチャ推論を行うことができるが、新しいテクスチャ化された3D形状やレンダリングを生成することもできる。
- 参考スコア(独自算出の注目度): 21.962725416347855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For humans, visual understanding is inherently generative: given a 3D shape,
we can postulate how it would look in the world; given a 2D image, we can infer
the 3D structure that likely gave rise to it. We can thus translate between the
2D visual and 3D structural modalities of a given object. In the context of
computer vision, this corresponds to a learnable module that serves two
purposes: (i) generate a realistic rendering of a 3D object (shape-to-image
translation) and (ii) infer a realistic 3D shape from an image (image-to-shape
translation). In this paper, we learn such a module while being conscious of
the difficulties in obtaining large paired 2D-3D datasets. By leveraging
generative domain translation methods, we are able to define a learning
algorithm that requires only weak supervision, with unpaired data. The
resulting model is not only able to perform 3D shape, pose, and texture
inference from 2D images, but can also generate novel textured 3D shapes and
renders, similar to a graphics pipeline. More specifically, our method (i)
infers an explicit 3D mesh representation, (ii) utilizes example shapes to
regularize inference, (iii) requires only an image mask (no keypoints or camera
extrinsics), and (iv) has generative capabilities. While prior work explores
subsets of these properties, their combination is novel. We demonstrate the
utility of our learned representation, as well as its performance on image
generation and unpaired 3D shape inference tasks.
- Abstract(参考訳): 人間にとって、視覚的な理解は本質的に生成的であり、3d形状が与えられると、世界がどのように見えるかを仮定することができる。
したがって、与えられたオブジェクトの2次元視覚と3次元構造モダリティを変換できる。
コンピュータビジョンの文脈では、これは2つの目的を果たす学習可能なモジュールに対応する。
(i)3Dオブジェクトのリアルなレンダリング(形状変換)を生成して
(ii)画像からリアルな3次元形状を推定する(画像から形への変換)。
本稿では,大規模な2D-3Dデータセットを得る際の困難を意識しながら,そのようなモジュールを学習する。
生成型ドメイン翻訳法を利用することで,弱い監視のみを必要とする学習アルゴリズムを非ペアデータで定義することができる。
得られたモデルは、2D画像から3D形状、ポーズ、テクスチャ推論を行うだけでなく、グラフィックパイプラインのような新しいテクスチャ化された3D形状やレンダリングを生成することもできる。
より具体的には
(i)明示的な3Dメッシュ表現を推論する。
(ii) 推論を正則化するために例の形を用いる。
(iii)画像マスクのみを必要とする(キーポイントやカメラ外接は不要)。
(iv)生成能力を有する。
以前の研究はこれらの性質のサブセットを探求するが、それらの組み合わせは新しいものである。
我々は、学習した表現の有用性と、画像生成と不対面な3次元形状推論タスクの性能を実証する。
関連論文リスト
- Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - Fully Understanding Generic Objects: Modeling, Segmentation, and
Reconstruction [33.95791350070165]
2D画像からジェネリックオブジェクトの3D構造を推定することは、コンピュータビジョンの長年の目標です。
半教師付き学習による代替アプローチを取る。
つまり、ジェネリックオブジェクトの2Dイメージでは、カテゴリ、形状、およびアルベドの潜在的な表現に分解します。
完全な形状とアルベドモデリングにより、モデリングとモデルフィッティングの両方で実際の2Dイメージを活用できることを示しています。
論文 参考訳(メタデータ) (2021-04-02T02:39:29Z) - Do 2D GANs Know 3D Shape? Unsupervised 3D shape reconstruction from 2D
Image GANs [156.1209884183522]
GANのような最先端の2D生成モデルは、自然像多様体のモデリングにおいて前例のない品質を示している。
本稿では,RGB画像のみをトレーニングした市販の2D GANから3次元幾何学的手がかりを直接マイニングする試みについて紹介する。
論文 参考訳(メタデータ) (2020-11-02T09:38:43Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z) - Convolutional Generation of Textured 3D Meshes [34.20939983046376]
単視点自然画像からの2次元監視のみを用いて,三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを提案する。
我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、意味的に整合し、2D畳み込みGANで容易にモデル化できる。
本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-13T15:23:29Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。