論文の概要: Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance
Consistency
- arxiv url: http://arxiv.org/abs/2204.10310v1
- Date: Thu, 21 Apr 2022 17:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 14:21:43.010598
- Title: Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance
Consistency
- Title(参考訳): Thy Neighbors氏との共有: クロスインスタンス一貫性による単一ビュー再構築
- Authors: Tom Monnier, Matthew Fisher, Alexei A. Efros, Mathieu Aubry
- Abstract要約: 単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。
異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。
i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
- 参考スコア(独自算出の注目度): 59.427074701985795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approaches to single-view reconstruction typically rely on viewpoint
annotations, silhouettes, the absence of background, multiple views of the same
instance, a template shape, or symmetry. We avoid all of these supervisions and
hypotheses by leveraging explicitly the consistency between images of different
object instances. As a result, our method can learn from large collections of
unlabelled images depicting the same object category. Our main contributions
are two approaches to leverage cross-instance consistency: (i) progressive
conditioning, a training strategy to gradually specialize the model from
category to instances in a curriculum learning fashion; (ii) swap
reconstruction, a loss enforcing consistency between instances having similar
shape or texture. Critical to the success of our method are also: our
structured autoencoding architecture decomposing an image into explicit shape,
texture, pose, and background; an adapted formulation of differential
rendering, and; a new optimization scheme alternating between 3D and pose
learning. We compare our approach, UNICORN, both on the diverse synthetic
ShapeNet dataset - the classical benchmark for methods requiring multiple views
as supervision - and on standard real-image benchmarks (Pascal3D+ Car, CUB-200)
for which most methods require known templates and silhouette annotations. We
also showcase applicability to more challenging real-world collections
(CompCars, LSUN), where silhouettes are not available and images are not
cropped around the object.
- Abstract(参考訳): 単一ビュー再構築へのアプローチは通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。
異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。
その結果,同じ対象カテゴリを表現したラベルなし画像の膨大なコレクションから学習することができる。
私たちの主な貢献は、クロスインスタンス一貫性を活用する2つのアプローチです。
一 プログレッシブ・コンディショニング、カリキュラム学習の方法によるカテゴリーから事例までモデルを徐々に専門化する訓練戦略
(ii)形状又はテクスチャの類似したインスタンス間の一貫性を強制する損失。
提案手法の成功には, イメージを明示的な形状, テクスチャ, ポーズ, 背景に分解する構造化オートエンコーディングアーキテクチャ, 微分レンダリングの適合した定式化, 3dとポーズ学習を交互に交互に行う新しい最適化スキームなども重要である。
当社のアプローチであるUNICORNは,さまざまな合成ShapeNetデータセット – 監視対象として複数のビューを必要とするメソッドの古典的なベンチマーク – と,既知のテンプレートやシルエットアノテーションを必要とする標準的なリアルタイムベンチマーク(Pascal3D+ Car, CUB-200)を比較しています。
また、シルエットが利用できず、画像がオブジェクトの周りにトリミングされない、より挑戦的な実世界のコレクション(compcars、lsun)に適用する可能性も示しています。
関連論文リスト
- EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - ShapeClipper: Scalable 3D Shape Learning from Single-View Images via
Geometric and CLIP-based Consistency [39.7058456335011]
実世界のRGB画像から3次元オブジェクト形状を再構成する新しい手法であるShapeClipperを提案する。
ShapeClipperは、単一ビュー分割画像の集合から形状再構成を学習する。
実世界の3つの挑戦的データセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-04-13T03:53:12Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Multi-Category Mesh Reconstruction From Image Collections [90.24365811344987]
本稿では, 一連の変形可能な3次元モデルとインスタンス固有の変形, ポーズ, テクスチャのセットを組み合わせた, オブジェクトのテクスチャメッシュを推定する手法を提案する。
本手法は,前景マスクと粗いカメラポーズのみを監督として,複数の対象カテゴリの画像を用いて訓練する。
実験により,提案フレームワークは異なる対象カテゴリを区別し,教師なしの方法でカテゴリ固有の形状を学習できることが示唆された。
論文 参考訳(メタデータ) (2021-10-21T16:32:31Z) - Unsupervised Layered Image Decomposition into Object Prototypes [39.20333694585477]
自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
論文 参考訳(メタデータ) (2021-04-29T18:02:01Z) - A Divide et Impera Approach for 3D Shape Reconstruction from Multiple
Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。
本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。
提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文 参考訳(メタデータ) (2020-11-17T09:59:32Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。