論文の概要: OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views
- arxiv url: http://arxiv.org/abs/2404.03650v1
- Date: Thu, 4 Apr 2024 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.587428
- Title: OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views
- Title(参考訳): OpenNeRF:Pixel-Wise機能とレンダリングされた新しいビューを備えたオープンセット3Dニューラルシーンセグメンテーション
- Authors: Francis Engelmann, Fabian Manhardt, Michael Niemeyer, Keisuke Tateno, Marc Pollefeys, Federico Tombari,
- Abstract要約: 提案するOpenNeRFは,ポーズ画像上で自然に動作し,NeRF内のVLM機能を直接符号化する。
我々の研究は、ピクセルワイドVLM機能を用いることで、DINO正規化を必要とせずに、全体的なアーキテクチャがより複雑になることを示している。
Replicaデータセット上の3Dポイントクラウドセグメンテーションでは、OpenNeRFはLERFやOpenSceneといった最近のオープン語彙法を少なくとも4.9 mIoUで上回っている。
- 参考スコア(独自算出の注目度): 90.71215823587875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large visual-language models (VLMs), like CLIP, enable open-set image segmentation to segment arbitrary concepts from an image in a zero-shot manner. This goes beyond the traditional closed-set assumption, i.e., where models can only segment classes from a pre-defined training set. More recently, first works on open-set segmentation in 3D scenes have appeared in the literature. These methods are heavily influenced by closed-set 3D convolutional approaches that process point clouds or polygon meshes. However, these 3D scene representations do not align well with the image-based nature of the visual-language models. Indeed, point cloud and 3D meshes typically have a lower resolution than images and the reconstructed 3D scene geometry might not project well to the underlying 2D image sequences used to compute pixel-aligned CLIP features. To address these challenges, we propose OpenNeRF which naturally operates on posed images and directly encodes the VLM features within the NeRF. This is similar in spirit to LERF, however our work shows that using pixel-wise VLM features (instead of global CLIP features) results in an overall less complex architecture without the need for additional DINO regularization. Our OpenNeRF further leverages NeRF's ability to render novel views and extract open-set VLM features from areas that are not well observed in the initial posed images. For 3D point cloud segmentation on the Replica dataset, OpenNeRF outperforms recent open-vocabulary methods such as LERF and OpenScene by at least +4.9 mIoU.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は、CLIPと同様に、ゼロショット方式で任意の概念をイメージからセグメント化するためのオープンセットイメージセグメンテーションを可能にする。
これは、モデルが事前に定義されたトレーニングセットからのみクラスをセグメントできるような、伝統的なクローズドセットの仮定を超えたものである。
最近では3Dシーンにおけるオープンセットセグメンテーションに関する最初の研究が文献に登場している。
これらの手法は、点雲やポリゴンメッシュを処理するクローズドセットの3D畳み込みアプローチの影響を強く受けている。
しかし、これらの3次元シーン表現は、視覚言語モデルのイメージベースの性質とうまく一致しない。
実際、ポイントクラウドと3Dメッシュは通常、画像よりも解像度が低く、再構成された3Dシーンの幾何学は、ピクセル対応のCLIP機能を計算するために使用される2Dイメージシーケンスによく似ていないかもしれない。
これらの課題に対処するため,ポーズ画像上で自然に動作し,NeRF内のVLM機能を直接符号化するOpenNeRFを提案する。
これはLERFと精神的に似ているが、我々の研究は、ピクセルワイドのVLM機能(グローバルCLIP機能の代わりに)を使用することで、DINO正規化を必要とせずに、全体的なより複雑なアーキテクチャが得られることを示している。
我々のOpenNeRFは、NeRFの新たなビューを描画し、初期画像でよく観察されていない領域からオープンセットのVLM特徴を抽出する能力を活用している。
Replicaデータセット上の3Dポイントクラウドセグメンテーションでは、OpenNeRFはLERFやOpenSceneといった最近のオープン語彙法を少なくとも4.9 mIoUで上回っている。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - OpenDlign: Open-World Point Cloud Understanding with Depth-Aligned Images [17.344430840048094]
マルチモーダルアライメントのための奥行き整合画像を用いたオープンワールド3DモデルOpenDlignを提案する。
OpenDlignは、600万のパラメータを微調整するだけで、多様な3Dタスクで高いゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-25T11:53:36Z) - PERF: Panoramic Neural Radiance Field from a Single Panorama [109.31072618058043]
PERFはパノラマ性神経放射場を1つのパノラマから訓練する新しいビュー合成フレームワークである。
本研究では,360度2Dシーンを3Dシーンに持ち上げるために,新しい共同RGBDインペイント法とプログレッシブ・インペイント・アンド・エラスティング法を提案する。
PERFは,パノラマから3D,テキストから3D,3Dシーンのスタイリングなど,現実世界のアプリケーションに広く利用することができる。
論文 参考訳(メタデータ) (2023-10-25T17:59:01Z) - Open-NeRF: Towards Open Vocabulary NeRF Decomposition [14.759265492381509]
開語彙埋め込み型ニューラルラジアンスフィールド(Open-NeRF)を提案する。
Open-NeRFはSegment Anything Model (SAM)のような大規模オフザシェルフセグメンテーションモデルを活用する
実験の結果,提案したOpen-NeRFは,開語彙シナリオにおけるLERF citelerfやFFD citeffdといった最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-25T05:43:14Z) - SegNeRF: 3D Part Segmentation with Neural Radiance Fields [63.12841224024818]
SegNeRFは、通常の放射場とセマンティックフィールドを統合するニューラルネットワーク表現である。
SegNeRFは、未確認のオブジェクトであっても、ポーズされた画像から幾何学、外観、意味情報を同時に予測することができる。
SegNeRFは、野生で撮影されたオブジェクトの1つのイメージから、対応する部分のセグメンテーションによって、明示的な3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2022-11-21T07:16:03Z) - PeRFception: Perception using Radiance Fields [72.99583614735545]
私たちは、PeRFceptionと呼ばれる知覚タスクのための、最初の大規模な暗黙的表現データセットを作成します。
元のデータセットからかなりのメモリ圧縮率 (96.4%) を示し、2D情報と3D情報の両方を統一形式で格納している。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に収まらないよう、新しい拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:32:46Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。