論文の概要: Surface-SOS: Self-Supervised Object Segmentation via Neural Surface Representation
- arxiv url: http://arxiv.org/abs/2501.09947v1
- Date: Fri, 17 Jan 2025 04:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:43.064503
- Title: Surface-SOS: Self-Supervised Object Segmentation via Neural Surface Representation
- Title(参考訳): Surface-SOS:ニューラルサーフェス表現による自己スーパービジョンオブジェクトセグメンテーション
- Authors: Xiaoyun Zheng, Liwei Liao, Jianbo Jiao, Feng Gao, Ronggang Wang,
- Abstract要約: Self-supervised Object Function (SOS) は、アノテーションなしでオブジェクトをセグメントすることを目的としている。
マルチカメラ入力の条件下では、各ビューにおける構造的、テクスチャ的、幾何学的整合性を利用して、きめ細かいオブジェクトセグメンテーションを実現することができる。
本研究では,表面表現に基づく自己監督型Blended Object (Surface-SOS) を提案する。
- 参考スコア(独自算出の注目度): 29.297581094153166
- License:
- Abstract: Self-supervised Object Segmentation (SOS) aims to segment objects without any annotations. Under conditions of multi-camera inputs, the structural, textural and geometrical consistency among each view can be leveraged to achieve fine-grained object segmentation. To make better use of the above information, we propose Surface representation based Self-supervised Object Segmentation (Surface-SOS), a new framework to segment objects for each view by 3D surface representation from multi-view images of a scene. To model high-quality geometry surfaces for complex scenes, we design a novel scene representation scheme, which decomposes the scene into two complementary neural representation modules respectively with a Signed Distance Function (SDF). Moreover, Surface-SOS is able to refine single-view segmentation with multi-view unlabeled images, by introducing coarse segmentation masks as additional input. To the best of our knowledge, Surface-SOS is the first self-supervised approach that leverages neural surface representation to break the dependence on large amounts of annotated data and strong constraints. These constraints typically involve observing target objects against a static background or relying on temporal supervision in videos. Extensive experiments on standard benchmarks including LLFF, CO3D, BlendedMVS, TUM and several real-world scenes show that Surface-SOS always yields finer object masks than its NeRF-based counterparts and surpasses supervised single-view baselines remarkably. Code is available at: https://github.com/zhengxyun/Surface-SOS.
- Abstract(参考訳): 自己組織化オブジェクトセグメンテーション(SOS)は、アノテーションなしでオブジェクトをセグメンテーションすることを目的としている。
マルチカメラ入力の条件下では、各ビューにおける構造的、テクスチャ的、幾何学的整合性を利用して、きめ細かいオブジェクトセグメンテーションを実現することができる。
上記の情報をよりよく活用するために,シーンの多視点画像から3次元表面表現でオブジェクトを分割する新しいフレームワークである,Surface-SOS (Self-supervised Object Segmentation) を提案する。
複雑なシーンのための高品質な幾何学曲面をモデル化するために、シーンを2つの相補的なニューラル表現モジュールに分割する新しいシーン表現スキームを設計する。
さらに、Surface-SOSは、粗いセグメンテーションマスクを付加入力として導入することにより、マルチビューの未ラベル画像で単一ビューセグメンテーションを洗練することができる。
われわれの知る限りでは、Surface-SOSは、神経表面表現を利用して大量の注釈付きデータと強い制約への依存を断ち切る最初の自己教師型アプローチである。
これらの制約は典型的には、静的な背景に対して対象のオブジェクトを観察することや、ビデオの時間的監視に依存する。
LLFF、CO3D、BlendedMVS、TUMなどの標準ベンチマークでの大規模な実験は、Surface-SOSが常にNeRFベースのものよりも細いオブジェクトマスクを出力し、監督された単一ビューベースラインをはるかに上回っていることを示している。
コードは、https://github.com/zhengxyun/Surface-SOSで入手できる。
関連論文リスト
- ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - High-Fidelity Mask-free Neural Surface Reconstruction for Virtual Reality [6.987660269386849]
Hi-NeuSは、ニューラル暗黙表面再構成のための新しいレンダリングベースのフレームワークである。
提案手法はNeuSとその変種であるNeuralangeloを用いて検証されている。
論文 参考訳(メタデータ) (2024-09-20T02:07:49Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。