論文の概要: Multi-Plane Program Induction with 3D Box Priors
- arxiv url: http://arxiv.org/abs/2011.10007v2
- Date: Sun, 22 Nov 2020 19:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:15:31.149541
- Title: Multi-Plane Program Induction with 3D Box Priors
- Title(参考訳): 3Dボックスプリミティブを用いたマルチプレーンプログラム誘導
- Authors: Yikai Li, Jiayuan Mao, Xiuming Zhang, William T. Freeman, Joshua B.
Tenenbaum, Noah Snavely, Jiajun Wu
- Abstract要約: 1つの画像からプログラムライクなシーン表現を推論するBox Program Injection (BPI)を提案する。
BPIは同時に、複数の2次元平面上の繰り返し構造、平面の3次元位置と向き、およびカメラパラメータをモデル化する。
ニューラルネットワークを使って、点の消滅やワイヤーフレーム線などの視覚的手がかりを推論し、検索ベースのアルゴリズムを誘導し、最もよく画像を説明するプログラムを見つける。
- 参考スコア(独自算出の注目度): 110.6726150681556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider two important aspects in understanding and editing images:
modeling regular, program-like texture or patterns in 2D planes, and 3D posing
of these planes in the scene. Unlike prior work on image-based program
synthesis, which assumes the image contains a single visible 2D plane, we
present Box Program Induction (BPI), which infers a program-like scene
representation that simultaneously models repeated structure on multiple 2D
planes, the 3D position and orientation of the planes, and camera parameters,
all from a single image. Our model assumes a box prior, i.e., that the image
captures either an inner view or an outer view of a box in 3D. It uses neural
networks to infer visual cues such as vanishing points, wireframe lines to
guide a search-based algorithm to find the program that best explains the
image. Such a holistic, structured scene representation enables 3D-aware
interactive image editing operations such as inpainting missing pixels,
changing camera parameters, and extrapolate the image contents.
- Abstract(参考訳): 画像の理解と編集には2つの重要な側面がある: 正規表現のモデリング、2次元平面におけるプログラムのようなテクスチャやパターン、シーンにおけるこれらの平面の3dポーズ。
画像が1つの可視2次元平面を含むと仮定した画像に基づくプログラム合成の以前の作業とは異なり、複数の2次元平面、平面の位置と向き、およびカメラパラメータの繰り返し構造を同時にモデル化するプログラムのようなシーン表現を1つの画像から推定するbpi(box program induction)を提案する。
我々のモデルは、画像が3Dで内側のビューまたは外側のビューをキャプチャする、というボックスを事前に仮定する。
ニューラルネットワークを使って、消失点やワイヤーフレーム線などの視覚的な手がかりを推論し、検索ベースのアルゴリズムをガイドし、画像を説明するプログラムを見つける。
このような全体的で構造化されたシーン表現は、欠落したピクセルの表示、カメラパラメータの変更、画像内容の補間といった3d対応のインタラクティブな画像編集操作を可能にする。
関連論文リスト
- 3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。
形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。
我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文 参考訳(メタデータ) (2024-04-02T17:32:12Z) - RoSI: Recovering 3D Shape Interiors from Few Articulation Images [20.430308190444737]
既存の3次元モデルの内部形状を,マルチビューおよびマルチアレイ画像からのみ外形に復元する学習フレームワークを提案する。
我々のニューラルアーキテクチャはカテゴリーに依存しない方法で訓練されており、モーションアウェアなマルチビュー分析フェーズで構成されています。
さらに,本手法では, 対象の3次元物体に対して, 被写体の動きを予測し, 外挿することも可能である。
論文 参考訳(メタデータ) (2023-04-13T08:45:26Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Towards Panoptic 3D Parsing for Single Image in the Wild [35.98539308998578]
本稿では,1枚のRGB画像から,総合的な画像分割,オブジェクト検出,インスタンス分割,深度推定,オブジェクトインスタンスの3次元再構成を行う統合システムを提案する。
提案するパン光学3D解析フレームワークは,コンピュータビジョンにおいて有望な方向性を示す。
自律運転、マッピング、ロボット工学、デザイン、コンピュータグラフィックス、ロボット工学、人間とコンピュータの相互作用、拡張現実など、様々な応用に適用することができる。
論文 参考訳(メタデータ) (2021-11-04T17:45:04Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z) - GRF: Learning a General Radiance Field for 3D Representation and
Rendering [4.709764624933227]
我々は、暗黙的に3Dオブジェクトとシーンを2D観察からのみ表現しレンダリングする、シンプルだが強力なニューラルネットワークを提案する。
ネットワークは、一般的な放射場として3Dジオメトリをモデル化し、カメラのポーズと固有の2D画像のセットを入力として取り込む。
提案手法は, 斬新なオブジェクト, 見えないカテゴリ, 現実のシーンに対して, 高品質で現実的な新しいビューを生成できる。
論文 参考訳(メタデータ) (2020-10-09T14:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。