論文の概要: Multiview Compressive Coding for 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2301.08247v1
- Date: Thu, 19 Jan 2023 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:15:17.761940
- Title: Multiview Compressive Coding for 3D Reconstruction
- Title(参考訳): 3次元再構成のためのマルチビュー圧縮符号化
- Authors: Chao-Yuan Wu, Justin Johnson, Jitendra Malik, Christoph Feichtenhofer,
Georgia Gkioxari
- Abstract要約: 単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
- 参考スコア(独自算出の注目度): 77.95706553743626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central goal of visual recognition is to understand objects and scenes from
a single image. 2D recognition has witnessed tremendous progress thanks to
large-scale learning and general-purpose representations. Comparatively, 3D
poses new challenges stemming from occlusions not depicted in the image. Prior
works try to overcome these by inferring from multiple views or rely on scarce
CAD models and category-specific priors which hinder scaling to novel settings.
In this work, we explore single-view 3D reconstruction by learning
generalizable representations inspired by advances in self-supervised learning.
We introduce a simple framework that operates on 3D points of single objects or
whole scenes coupled with category-agnostic large-scale training from diverse
RGB-D videos. Our model, Multiview Compressive Coding (MCC), learns to compress
the input appearance and geometry to predict the 3D structure by querying a
3D-aware decoder. MCC's generality and efficiency allow it to learn from
large-scale and diverse data sources with strong generalization to novel
objects imagined by DALL$\cdot$E 2 or captured in-the-wild with an iPhone.
- Abstract(参考訳): 視覚認識の中心的な目標は、単一の画像からオブジェクトやシーンを理解することである。
2d認識は、大規模学習と汎用表現のおかげで、大きな進歩を遂げている。
対照的に、3Dは画像に描かれていない閉塞から生じる新しい課題を提起する。
先行研究では、複数のビューから推論したり、少ないcadモデルやカテゴリ固有の優先順位に依存することで、これらを克服しようとする。
本研究では,自己教師付き学習の進歩に触発された一般化表現を学習することで,単視点3次元再構成を探索する。
単一のオブジェクトやシーン全体の3Dポイントで動作するシンプルなフレームワークを,さまざまなRGB-Dビデオからカテゴリに依存しない大規模トレーニングと組み合わせて導入する。
我々のモデルであるMultiview Compressive Coding (MCC)は、入力の外観と形状を圧縮し、3D対応デコーダをクエリすることで3D構造を予測する。
MCCの汎用性と効率性により、大規模で多様なデータソースから、DALL$\cdot$E 2で想像される新しいオブジェクト、あるいはiPhoneで撮影されるオブジェクトまで、強力な汎用性を持つことができる。
関連論文リスト
- 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:54:31Z) - 3D-LFM: Lifting Foundation Model [29.48835001900286]
ディープラーニングは、幅広いオブジェクトクラスを再構築する能力を拡大しました。
提案手法は, 3次元データインスタンス毎に異なる数点を管理するために, 固有置換同値変換器を利用する。
本稿では,2D-3Dリフトタスクベンチマークにおけるアートパフォーマンスについて述べる。
論文 参考訳(メタデータ) (2023-12-19T06:38:18Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。