論文の概要: OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding
- arxiv url: http://arxiv.org/abs/2406.08009v1
- Date: Wed, 12 Jun 2024 08:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:45:58.579339
- Title: OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding
- Title(参考訳): OpenObj: 細粒度理解によるオープンボキャブラリオブジェクトレベルニューラルラジアンスフィールド
- Authors: Yinan Deng, Jiahui Wang, Jingyu Zhao, Jianyu Dou, Yi Yang, Yufeng Yue,
- Abstract要約: オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。
本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。
複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 21.64446104872021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a surge of interest in open-vocabulary 3D scene reconstruction facilitated by visual language models (VLMs), which showcase remarkable capabilities in open-set retrieval. However, existing methods face some limitations: they either focus on learning point-wise features, resulting in blurry semantic understanding, or solely tackle object-level reconstruction, thereby overlooking the intricate details of the object's interior. To address these challenges, we introduce OpenObj, an innovative approach to build open-vocabulary object-level Neural Radiance Fields (NeRF) with fine-grained understanding. In essence, OpenObj establishes a robust framework for efficient and watertight scene modeling and comprehension at the object-level. Moreover, we incorporate part-level features into the neural fields, enabling a nuanced representation of object interiors. This approach captures object-level instances while maintaining a fine-grained understanding. The results on multiple datasets demonstrate that OpenObj achieves superior performance in zero-shot semantic segmentation and retrieval tasks. Additionally, OpenObj supports real-world robotics tasks at multiple scales, including global movement and local manipulation.
- Abstract(参考訳): 近年,視覚言語モデル(VLM)によるオープンな3次元シーン再構築への関心が高まっている。
しかし、既存の手法はいくつかの制限に直面している:それらはポイントワイドな特徴を学習することに集中し、ぼやけた意味的理解をもたらすか、単にオブジェクトレベルの再構築に取り組み、それによってオブジェクトの内部の複雑な詳細を見渡す。
これらの課題に対処するため,オープンボキャブラリオブジェクトレベルのニューラルラジアンスフィールド(NeRF)を構築するための革新的なアプローチであるOpenObjを紹介した。
本質的にOpenObjは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。
さらに,部分レベルの特徴をニューラルネットワークに組み込んで,物体内部のニュアンス表現を可能にする。
このアプローチは、きめ細かい理解を維持しながら、オブジェクトレベルのインスタンスをキャプチャする。
複数のデータセットにおける結果から,OpenObjは,ゼロショットセマンティックセグメンテーションや検索タスクにおいて優れた性能を発揮することが示された。
さらにOpenObjは、グローバルムーブメントやローカル操作など、現実のロボットタスクを複数のスケールでサポートする。
関連論文リスト
- OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。
既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。
我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文 参考訳(メタデータ) (2024-08-20T17:31:48Z) - LOSS-SLAM: Lightweight Open-Set Semantic Simultaneous Localization and Mapping [9.289001828243512]
オブジェクトを識別,ローカライズ,符号化するシステムは,オープンセットのセマンティックな同時ローカライゼーションとマッピングを行う確率的グラフィカルモデルと密結合していることを示す。
提案した軽量オブジェクト符号化は,既存のオープンセット手法よりも高精度なオブジェクトベースSLAMを実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-05T19:42:55Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using
Semantic Understanding in Mixed Reality [3.469644923522024]
拡張現実におけるオブジェクト配置のための新しいオープン語彙法を提案する。
予備的なユーザスタディにおいて、我々の手法は少なくとも人間の57%の時間において人間の専門家と同様に機能することを示した。
論文 参考訳(メタデータ) (2023-12-20T07:34:20Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene
Recognition [19.503027767462605]
本研究では,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。
OTSは、新たなストリームを使わずに、室内のシーン認識において、最先端の手法を2%以上上回っている。
論文 参考訳(メタデータ) (2021-08-01T08:37:08Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。