論文の概要: Perspective Plane Program Induction from a Single Image
- arxiv url: http://arxiv.org/abs/2006.14708v1
- Date: Thu, 25 Jun 2020 21:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 02:44:45.945882
- Title: Perspective Plane Program Induction from a Single Image
- Title(参考訳): 単一画像からの視点平面プログラム誘導
- Authors: Yikai Li, Jiayuan Mao, Xiuming Zhang, William T. Freeman, Joshua B.
Tenenbaum, Jiajun Wu
- Abstract要約: 本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
- 参考スコア(独自算出の注目度): 85.28956922100305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the inverse graphics problem of inferring a holistic representation
for natural images. Given an input image, our goal is to induce a
neuro-symbolic, program-like representation that jointly models camera poses,
object locations, and global scene structures. Such high-level, holistic scene
representations further facilitate low-level image manipulation tasks such as
inpainting. We formulate this problem as jointly finding the camera pose and
scene structure that best describe the input image. The benefits of such joint
inference are two-fold: scene regularity serves as a new cue for perspective
correction, and in turn, correct perspective correction leads to a simplified
scene structure, similar to how the correct shape leads to the most regular
texture in shape from texture. Our proposed framework, Perspective Plane
Program Induction (P3I), combines search-based and gradient-based algorithms to
efficiently solve the problem. P3I outperforms a set of baselines on a
collection of Internet images, across tasks including camera pose estimation,
global structure inference, and down-stream image manipulation tasks.
- Abstract(参考訳): 自然画像の全体表現を推測する逆グラフィックス問題について検討する。
入力画像が与えられた場合、私たちの目標は、カメラのポーズ、オブジェクトの位置、グローバルなシーン構造を共同でモデル化する、ニューロシンボリックなプログラムライクな表現を誘発することです。
このような高レベルで総合的なシーン表現は、インペインティングのような低レベルのイメージ操作タスクをさらに促進します。
この問題を,入力画像の最もよく説明できるカメラのポーズとシーン構造を共同で見つけ出す問題として定式化する。
このようなジョイント推論の利点は2つある: シーンの規則性は視点の補正のための新しい手がかりとなり、そしてその結果として、正しい視点の補正は、テクスチャから最も規則的なテクスチャとなるように、単純なシーン構造につながる。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
P3Iは、カメラポーズ推定、グローバル構造推論、ダウンストリームイメージ操作タスクなどを含む、インターネットイメージの集合に対して、一連のベースラインを上回ります。
関連論文リスト
- Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - PanoContext-Former: Panoramic Total Scene Understanding with a
Transformer [37.51637352106841]
パノラマ画像は、周囲の環境についてより深く理解し、より総合的な認識を可能にする。
本稿では,室内環境の総合的理解に先立って深度を用いた新しい手法を提案する。
さらに,写真リアリスティックパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。
論文 参考訳(メタデータ) (2023-05-21T16:20:57Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文 参考訳(メタデータ) (2020-05-13T04:15:14Z) - Learning Pose-invariant 3D Object Reconstruction from Single-view Images [61.98279201609436]
本稿では,単視点画像のみから3次元形状を学習する,より現実的な構成について検討する。
最大の難しさは、単一のビューイメージが提供できる制約の不足にある。
本稿では, 対角コンパクトな形状空間を学習するために, 効果的な対角領域混同法を提案する。
論文 参考訳(メタデータ) (2020-04-03T02:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。