論文の概要: Object Scene Representation Transformer
- arxiv url: http://arxiv.org/abs/2206.06922v1
- Date: Tue, 14 Jun 2022 15:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:27:35.443496
- Title: Object Scene Representation Transformer
- Title(参考訳): オブジェクトシーン表現変換器
- Authors: Mehdi S. M. Sajjadi, Daniel Duckworth, Aravindh Mahendran, Sjoerd van
Steenkiste, Filip Paveti\'c, Mario Lu\v{c}i\'c, Leonidas J. Guibas, Klaus
Greff, Thomas Kipf
- Abstract要約: オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
- 参考スコア(独自算出の注目度): 56.40544849442227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A compositional understanding of the world in terms of objects and their
geometry in 3D space is considered a cornerstone of human cognition.
Facilitating the learning of such a representation in neural networks holds
promise for substantially improving labeled data efficiency. As a key step in
this direction, we make progress on the problem of learning 3D-consistent
decompositions of complex scenes into individual objects in an unsupervised
fashion. We introduce Object Scene Representation Transformer (OSRT), a
3D-centric model in which individual object representations naturally emerge
through novel view synthesis. OSRT scales to significantly more complex scenes
with larger diversity of objects and backgrounds than existing methods. At the
same time, it is multiple orders of magnitude faster at compositional rendering
thanks to its light field parametrization and the novel Slot Mixer decoder. We
believe this work will not only accelerate future architecture exploration and
scaling efforts, but it will also serve as a useful tool for both
object-centric as well as neural scene representation learning communities.
- Abstract(参考訳): 3次元空間における物体と幾何学の観点による世界の構成的理解は、人間の認知の基盤であると考えられている。
このような表現をニューラルネットワークで学習することは、ラベル付きデータの効率を大幅に向上させる約束である。
この方向の重要なステップとして、複雑なシーンの3次元連続分解を教師なしの方法で個々のオブジェクトに分解する問題を学習する。
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成によって個々のオブジェクト表現が自然に現れる3D中心モデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
同時に、ライトフィールドパラメトリゼーションと新しいスロットミキサーデコーダのおかげで、コンポジションレンダリングでは数桁高速である。
この作業は、将来のアーキテクチャ探索とスケーリングの取り組みを加速するだけでなく、オブジェクト指向とニューラルシーン表現学習コミュニティの両方にとって有用なツールになると考えています。
関連論文リスト
- Slot-guided Volumetric Object Radiance Fields [13.996432950674045]
本稿では,3次元オブジェクト中心表現学習のための新しいフレームワークを提案する。
本手法では,複雑なシーンを,教師なしの方法で単一の画像から個々のオブジェクトに分解する。
論文 参考訳(メタデータ) (2024-01-04T12:52:48Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Unsupervised Discovery and Composition of Object Light Fields [57.198174741004095]
オブジェクト中心の合成シーン表現において、オブジェクトを光場として表現することを提案する。
オブジェクト中心の光場から大域的な光場を再構成できる新しい光場合成モジュールを提案する。
論文 参考訳(メタデータ) (2022-05-08T17:50:35Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。