Fugu-MT 論文翻訳(概要): OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding

論文の概要: OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding

arxiv url: http://arxiv.org/abs/2406.08009v1
Date: Wed, 12 Jun 2024 08:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 17:45:58.579339
Title: OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding
Title（参考訳）: OpenObj: 細粒度理解によるオープンボキャブラリオブジェクトレベルニューラルラジアンスフィールド
Authors: Yinan Deng, Jiahui Wang, Jingyu Zhao, Jianyu Dou, Yi Yang, Yufeng Yue,
Abstract要約: オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
参考スコア（独自算出の注目度）: 21.64446104872021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, there has been a surge of interest in open-vocabulary 3D scene reconstruction facilitated by visual language models (VLMs), which showcase remarkable capabilities in open-set retrieval. However, existing methods face some limitations: they either focus on learning point-wise features, resulting in blurry semantic understanding, or solely tackle object-level reconstruction, thereby overlooking the intricate details of the object's interior. To address these challenges, we introduce OpenObj, an innovative approach to build open-vocabulary object-level Neural Radiance Fields (NeRF) with fine-grained understanding. In essence, OpenObj establishes a robust framework for efficient and watertight scene modeling and comprehension at the object-level. Moreover, we incorporate part-level features into the neural fields, enabling a nuanced representation of object interiors. This approach captures object-level instances while maintaining a fine-grained understanding. The results on multiple datasets demonstrate that OpenObj achieves superior performance in zero-shot semantic segmentation and retrieval tasks. Additionally, OpenObj supports real-world robotics tasks at multiple scales, including global movement and local manipulation.
Abstract（参考訳）: 近年,視覚言語モデル(VLM)によるオープンな3次元シーン再構築への関心が高まっている。しかし、既存の手法はいくつかの制限に直面している:それらはポイントワイドな特徴を学習することに集中し、ぼやけた意味的理解をもたらすか、単にオブジェクトレベルの再構築に取り組み、それによってオブジェクトの内部の複雑な詳細を見渡す。これらの課題に対処するため,オープンボキャブラリオブジェクトレベルのニューラルラジアンスフィールド(NeRF)を構築するための革新的なアプローチであるOpenObjを紹介した。本質的にOpenObjは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。さらに,部分レベルの特徴をニューラルネットワークに組み込んで,物体内部のニュアンス表現を可能にする。このアプローチは、きめ細かい理解を維持しながら、オブジェクトレベルのインスタンスをキャプチャする。複数のデータセットにおける結果から,OpenObjは,ゼロショットセマンティックセグメンテーションや検索タスクにおいて優れた性能を発揮することが示された。さらにOpenObjは、グローバルムーブメントやローカル操作など、現実のロボットタスクを複数のスケールでサポートする。

関連論文リスト

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文参考訳（メタデータ） (2025-07-21T10:06:23Z)
Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文参考訳（メタデータ） (2025-04-09T17:59:05Z)
Object-Aware DINO (Oh-A-Dino): Enhancing Self-Supervised Representations for Multi-Object Instance Retrieval [1.4272411349249627]
DINOのような自己監督型視覚モデルは、創発的なオブジェクト理解を示している。 DINO表現はグローバルなオブジェクト属性のキャプチャに優れていますが、色のようなオブジェクトレベルの詳細には苦労しています。本稿では,DINO表現をオブジェクト中心の潜在ベクトルに拡張することで,グローバルな特徴と局所的な特徴を結合する手法を提案する。
論文参考訳（メタデータ） (2025-03-12T21:57:41Z)
Interacted Object Grounding in Spatio-Temporal Human-Object Interactions [70.8859442754261]
我々は、新しいオープンワールドベンチマーク: Grounding Interacted Objects (GIO)を導入する。オブジェクトの接地作業は視覚システムが相互作用するオブジェクトを発見することを期待するものである。多様なビデオから対話オブジェクトを検出するための4D質問応答フレームワーク(4D-QA)を提案する。
論文参考訳（メタデータ） (2024-12-27T09:08:46Z)
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-26T06:34:48Z)
OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文参考訳（メタデータ） (2024-08-20T17:31:48Z)
LOSS-SLAM: Lightweight Open-Set Semantic Simultaneous Localization and Mapping [9.289001828243512]
オブジェクトを識別,ローカライズ,符号化するシステムは,オープンセットのセマンティックな同時ローカライゼーションとマッピングを行う確率的グラフィカルモデルと密結合していることを示す。提案した軽量オブジェクト符号化は,既存のオープンセット手法よりも高精度なオブジェクトベースSLAMを実現することができることを示す。
論文参考訳（メタデータ） (2024-04-05T19:42:55Z)
OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning [95.6696714640357]
オープンワールドビデオインスタンスのセグメンテーションとキャプション」を新たに提案する。検出、セグメンテーション、追跡、記述、リッチなキャプションによる記述は、これまで見たこともない。我々は、オブジェクト抽象体とオブジェクトからテキストへの抽象体を開発する。
論文参考訳（メタデータ） (2024-04-04T17:59:58Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)
Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文参考訳（メタデータ） (2021-08-15T14:36:02Z)
Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene Recognition [19.503027767462605]
本研究では,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。 OTSは、新たなストリームを使わずに、室内のシーン認識において、最先端の手法を2%以上上回っている。
論文参考訳（メタデータ） (2021-08-01T08:37:08Z)
Look-into-Object: Self-supervised Structure Modeling for Object Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-03-31T12:22:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。