論文の概要: Weak Multi-View Supervision for Surface Mapping Estimation
- arxiv url: http://arxiv.org/abs/2105.01388v1
- Date: Tue, 4 May 2021 09:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 12:57:16.674594
- Title: Weak Multi-View Supervision for Surface Mapping Estimation
- Title(参考訳): 表面マッピング推定のための弱マルチビュー・スーパービジョン
- Authors: Nishant Rai, Aidas Liaudanskas, Srinivas Rao, Rodrigo Ortiz Cayon,
Matteo Munaro, Stefan Holzer
- Abstract要約: 密接なアノテーションを使わずにカテゴリ別表面マッピングを学習する,弱監督型マルチビュー学習手法を提案する。
人間の顔、車、飛行機といった一般的なカテゴリの基盤となる表面形状を、それらのカテゴリの例から学習する。
- 参考スコア(独自算出の注目度): 0.9367260794056769
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a weakly-supervised multi-view learning approach to learn
category-specific surface mapping without dense annotations. We learn the
underlying surface geometry of common categories, such as human faces, cars,
and airplanes, given instances from those categories. While traditional
approaches solve this problem using extensive supervision in the form of
pixel-level annotations, we take advantage of the fact that pixel-level UV and
mesh predictions can be combined with 3D reprojections to form consistency
cycles. As a result of exploiting these cycles, we can establish a dense
correspondence mapping between image pixels and the mesh acting as a
self-supervisory signal, which in turn helps improve our overall estimates. Our
approach leverages information from multiple views of the object to establish
additional consistency cycles, thus improving surface mapping understanding
without the need for explicit annotations. We also propose the use of
deformation fields for predictions of an instance specific mesh. Given the lack
of datasets providing multiple images of similar object instances from
different viewpoints, we generate and release a multi-view ShapeNet Cars and
Airplanes dataset created by rendering ShapeNet meshes using a 360 degree
camera trajectory around the mesh. For the human faces category, we process and
adapt an existing dataset to a multi-view setup. Through experimental
evaluations, we show that, at test time, our method can generate accurate
variations away from the mean shape, is multi-view consistent, and performs
comparably to fully supervised approaches.
- Abstract(参考訳): 本稿では,密接なアノテーションを使わずにカテゴリ固有の表面マッピングを学ぶための,弱教師付き多視点学習手法を提案する。
人間の顔、車、飛行機といった一般的なカテゴリの基盤となる表面形状を、それらのカテゴリの例から学習する。
従来のアプローチでは,画素レベルのアノテーションという形で広範囲の監視によってこの問題を解決しているが,画素レベルのUVとメッシュ予測を3次元再計画と組み合わせて一貫性のサイクルを形成することが可能である。
これらのサイクルを活用することにより、画像画素とメッシュが自己超越信号として機能する密接な対応マッピングを構築でき、その結果、全体の推定値を改善するのに役立ちます。
このアプローチでは、オブジェクトの複数のビューからの情報を活用して、追加の一貫性サイクルを確立し、明示的なアノテーションを必要とせずに表面マッピングの理解を改善します。
また,インスタンス特定メッシュの予測のための変形場の利用を提案する。
異なる視点から類似したオブジェクトインスタンスの複数のイメージを提供するデータセットが欠如していることを踏まえ、メッシュ周囲の360度カメラ軌跡を使用してShapeNetメッシュをレンダリングした多視点のShapeNet CarとAirplanesデータセットを生成し、リリースする。
human facesカテゴリでは、既存のデータセットをマルチビューのセットアップに処理し、適応させます。
実験結果から,本手法は平均形状から外れた正確な変動を生成でき,マルチビューに一貫性があり,完全な教師付きアプローチと相性が良いことを示す。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-08-31T09:38:05Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Efficient Textured Mesh Recovery from Multiple Views with Differentiable
Rendering [8.264851594332677]
マルチビュー画像からテクスチャメッシュを復元する手法を提案する。
学習ベース多視点ステレオアルゴリズムにより予測される深度との差を最小化することにより形状形状を最適化する。
形状や色に対する暗黙的なニューラル表現とは対照的に,物体の光と反射を共同で推定する物理ベース逆レンダリング方式を導入する。
論文 参考訳(メタデータ) (2022-05-25T03:33:55Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Localization and Mapping using Instance-specific Mesh Models [12.235379548921061]
本論文では,モノラルカメラを用いて,物体のポーズや形状を含むセマンティックマップの構築に焦点を当てる。
私たちの貢献は,カメラ画像から抽出した意味情報に基づいてオンラインに最適化可能な,オブジェクト形状のインスタンス固有メッシュモデルである。
論文 参考訳(メタデータ) (2021-03-08T00:24:23Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z) - Implicit Mesh Reconstruction from Unannotated Image Collections [48.85604987196472]
本稿では,1枚のRGB画像から3次元形状,テクスチャ,カメラのポーズを推定する手法を提案する。
この形状を画像条件付暗黙関数として表現し、球面を予測メッシュのそれに変換するとともに、対応するテクスチャを予測する。
論文 参考訳(メタデータ) (2020-07-16T17:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。