論文の概要: Neural Radiance Field Codebooks
- arxiv url: http://arxiv.org/abs/2301.04101v2
- Date: Sun, 30 Apr 2023 09:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 18:53:35.252240
- Title: Neural Radiance Field Codebooks
- Title(参考訳): ニューラル・ラミアンス・フィールド・コードブック
- Authors: Matthew Wallingford, Aditya Kusupati, Alex Fang, Vivek Ramanujan,
Aniruddha Kembhavi, Roozbeh Mottaghi, Ali Farhadi
- Abstract要約: 我々は、オブジェクト指向表現を学習するためのスケーラブルな方法であるNeural Radiance Field Codebooks (NRC)を紹介する。
NRCは、ボリューム再構成によってデコードされたオブジェクトコードの辞書を使用して、新しいビューからシーンを再構築することを学ぶ。
NRC表現は、THORのオブジェクトナビゲーションによく対応し、2Dおよび3D表現学習法を3.1%の成功率で上回ることを示す。
- 参考スコア(独自算出の注目度): 53.01356339021285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional representations of the world are a promising step towards
enabling high-level scene understanding and efficient transfer to downstream
tasks. Learning such representations for complex scenes and tasks remains an
open challenge. Towards this goal, we introduce Neural Radiance Field Codebooks
(NRC), a scalable method for learning object-centric representations through
novel view reconstruction. NRC learns to reconstruct scenes from novel views
using a dictionary of object codes which are decoded through a volumetric
renderer. This enables the discovery of reoccurring visual and geometric
patterns across scenes which are transferable to downstream tasks. We show that
NRC representations transfer well to object navigation in THOR, outperforming
2D and 3D representation learning methods by 3.1% success rate. We demonstrate
that our approach is able to perform unsupervised segmentation for more complex
synthetic (THOR) and real scenes (NYU Depth) better than prior methods (29%
relative improvement). Finally, we show that NRC improves on the task of depth
ordering by 5.5% accuracy in THOR.
- Abstract(参考訳): 世界の構成表現は、高レベルのシーン理解と下流タスクへの効率的な転送を可能にするための有望なステップである。
このような複雑なシーンやタスクの表現を学ぶことは、まだ未解決の課題です。
この目的に向けて、新しいビュー再構成を通してオブジェクト中心表現を学習するスケーラブルな方法であるNeural Radiance Field Codebooks (NRC)を導入する。
nrcはボリュームレンダラを通じてデコードされるオブジェクトコードの辞書を使用して、新しいビューからシーンを再構築することを学ぶ。
これにより、下流タスクに転送可能なシーン間で、視覚的および幾何学的パターンの再帰を発見できる。
NRC表現は、THORのオブジェクトナビゲーションによく対応し、2Dおよび3D表現学習法を3.1%の成功率で上回ることを示す。
我々は,従来の手法(29%の相対的改善)よりも複雑な合成(thor)と実シーン(nyu深度)に対して教師なしセグメンテーションを実行できることを示す。
最後に, NRC は THOR において5.5% の精度で深度順序付け作業を改善することを示す。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Neural Kernel Surface Reconstruction [80.51581494300423]
本稿では,大規模でスパースでノイズの多い点雲から3次元暗示面を再構成する新しい手法を提案する。
我々のアプローチは、最近導入されたNeural Kernel Fields表現に基づいている。
論文 参考訳(メタデータ) (2023-05-31T06:25:18Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - NeuralBlox: Real-Time Neural Representation Fusion for Robust Volumetric
Mapping [29.3378360000956]
本稿では,ニューラル暗黙表現の最近の進歩を活かした新しい3次元マッピング手法を提案する。
ニューラルな暗黙表現をインクリメンタルに構築し、更新するための融合戦略とトレーニングパイプラインを提案する。
インクリメンタルに構築された占有マップは,CPU上でもリアルタイムに取得可能であることを示す。
論文 参考訳(メタデータ) (2021-10-18T15:45:05Z) - RetrievalFuse: Neural 3D Scene Reconstruction with a Database [34.44425679892233]
トレーニングデータベースからシーンジオメトリを直接活用する新しい手法を紹介します。
まず,シーンデータベースから上位k個のボリュームチャンクを検索して構築した3次元シーンの初期推定値の合成を学習する。
これらの候補は最終シーン生成に洗練され、候補から最も一貫性のある幾何集合を効果的に選択できる注意に基づく改良がなされる。
本研究では,3次元超解像と疎点雲表面再構成のためのデータベースを用いて,神経シーンの再構成を実証する。
論文 参考訳(メタデータ) (2021-03-31T18:00:09Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。