論文の概要: Slot-guided Volumetric Object Radiance Fields
- arxiv url: http://arxiv.org/abs/2401.02241v1
- Date: Thu, 4 Jan 2024 12:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:07:01.334556
- Title: Slot-guided Volumetric Object Radiance Fields
- Title(参考訳): スロット誘導容積物体放射場
- Authors: Di Qi, Tong Yang, Xiangyu Zhang
- Abstract要約: 本稿では,3次元オブジェクト中心表現学習のための新しいフレームワークを提案する。
本手法では,複雑なシーンを,教師なしの方法で単一の画像から個々のオブジェクトに分解する。
- 参考スコア(独自算出の注目度): 13.996432950674045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel framework for 3D object-centric representation learning.
Our approach effectively decomposes complex scenes into individual objects from
a single image in an unsupervised fashion. This method, called slot-guided
Volumetric Object Radiance Fields (sVORF), composes volumetric object radiance
fields with object slots as a guidance to implement unsupervised 3D scene
decomposition. Specifically, sVORF obtains object slots from a single image via
a transformer module, maps these slots to volumetric object radiance fields
with a hypernetwork and composes object radiance fields with the guidance of
object slots at a 3D location. Moreover, sVORF significantly reduces memory
requirement due to small-sized pixel rendering during training. We demonstrate
the effectiveness of our approach by showing top results in scene decomposition
and generation tasks of complex synthetic datasets (e.g., Room-Diverse).
Furthermore, we also confirm the potential of sVORF to segment objects in
real-world scenes (e.g., the LLFF dataset). We hope our approach can provide
preliminary understanding of the physical world and help ease future research
in 3D object-centric representation learning.
- Abstract(参考訳): 本稿では3次元オブジェクト中心表現学習のための新しいフレームワークを提案する。
本手法では,複雑なシーンを,教師なしの方法で単一の画像から個々のオブジェクトに分解する。
この方法は、slot-guided volumetric object radiance fields (svorf)と呼ばれ、教師なしの3dシーン分解を実装するためのガイダンスとして、オブジェクトスロット付きボリュームリックオブジェクトradianceフィールドを構成する。
具体的には、SVORFは、トランスフォーマーモジュールを介して単一の画像からオブジェクトスロットを取得し、これらのスロットをハイパーネットワークでボリュームオブジェクトラディアンスフィールドにマッピングし、3D位置でのオブジェクトスロットの誘導でオブジェクトラディアンスフィールドを構成する。
さらに、sVORFは、トレーニング中の小さなピクセルレンダリングによるメモリ要求を著しく低減する。
複雑な合成データセット(Room-Diverseなど)のシーン分解および生成タスクにおける上位結果を示すことによって,本手法の有効性を示す。
さらに、現実世界のシーン(例えばLLFFデータセット)でオブジェクトをセグメント化するためのsVORFの可能性を確認する。
我々は,3次元オブジェクト中心表現学習における物理世界の予備的な理解と今後の研究の容易化を期待する。
関連論文リスト
- Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - LaTeRF: Label and Text Driven Object Radiance Fields [8.191404990730236]
シーン全体と既知のカメラポーズの2次元画像から興味の対象を抽出するLaTeRFを提案する。
シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を3Dポイントごとに追加のオブジェクト性確率で拡張する。
合成データと実データの両方で高忠実度オブジェクト抽出を実証する。
論文 参考訳(メタデータ) (2022-07-04T17:07:57Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Unsupervised Discovery and Composition of Object Light Fields [57.198174741004095]
オブジェクト中心の合成シーン表現において、オブジェクトを光場として表現することを提案する。
オブジェクト中心の光場から大域的な光場を再構成できる新しい光場合成モジュールを提案する。
論文 参考訳(メタデータ) (2022-05-08T17:50:35Z) - Unsupervised Discovery of Object Radiance Fields [86.20162437780671]
Object Radiance Fields (uORF)は、複雑なシーンを1つの画像から多様でテクスチャ化された背景で分解することを学ぶ。
教師なしの3次元シーンセグメンテーション、新しいビュー合成、および3つのデータセットのシーン編集において、uORFが優れていることを示す。
論文 参考訳(メタデータ) (2021-07-16T13:53:36Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。