論文の概要: MUVOD: A Novel Multi-view Video Object Segmentation Dataset and A Benchmark for 3D Segmentation
- arxiv url: http://arxiv.org/abs/2507.07519v1
- Date: Thu, 10 Jul 2025 08:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.317613
- Title: MUVOD: A Novel Multi-view Video Object Segmentation Dataset and A Benchmark for 3D Segmentation
- Title(参考訳): MUVOD:新しい多視点ビデオオブジェクトセグメンテーションデータセットと3Dセグメンテーションベンチマーク
- Authors: Bangning Wei, Joshua Maraval, Meriem Outtas, Kidiyo Kpalma, Nicolas Ramin, Lu Zhang,
- Abstract要約: MUVODは、再構成現実シナリオにおけるオブジェクトセグメンテーションのトレーニングと評価のための、新しいマルチビュービデオデータセットである。
各シーンは最低9ビュー、最大46ビューを含む。
7830枚のRGB画像に対応するセグメンテーションマスクを4Dモーションで表示し、シーンへの関心の対象は、あるビューの時間的フレームや、同じカメラリグに属する異なるビューにまたがって追跡することができる。
- 参考スコア(独自算出の注目度): 3.229267555477331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of methods based on Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3D GS) have steadily gained popularity in the field of 3D object segmentation in static scenes. These approaches demonstrate efficacy in a range of 3D scene understanding and editing tasks. Nevertheless, the 4D object segmentation of dynamic scenes remains an underexplored field due to the absence of a sufficiently extensive and accurately labelled multi-view video dataset. In this paper, we present MUVOD, a new multi-view video dataset for training and evaluating object segmentation in reconstructed real-world scenarios. The 17 selected scenes, describing various indoor or outdoor activities, are collected from different sources of datasets originating from various types of camera rigs. Each scene contains a minimum of 9 views and a maximum of 46 views. We provide 7830 RGB images (30 frames per video) with their corresponding segmentation mask in 4D motion, meaning that any object of interest in the scene could be tracked across temporal frames of a given view or across different views belonging to the same camera rig. This dataset, which contains 459 instances of 73 categories, is intended as a basic benchmark for the evaluation of multi-view video segmentation methods. We also present an evaluation metric and a baseline segmentation approach to encourage and evaluate progress in this evolving field. Additionally, we propose a new benchmark for 3D object segmentation task with a subset of annotated multi-view images selected from our MUVOD dataset. This subset contains 50 objects of different conditions in different scenarios, providing a more comprehensive analysis of state-of-the-art 3D object segmentation methods. Our proposed MUVOD dataset is available at https://volumetric-repository.labs.b-com.com/#/muvod.
- Abstract(参考訳): 静的シーンにおける3次元オブジェクトセグメンテーションの分野では,NeRF(Neural Radiance Fields)と3D Gaussian Splatting(3D GS)に基づく手法の適用が着実に普及している。
これらの手法は,3次元シーン理解および編集作業において有効であることを示す。
それでも、ダイナミックシーンの4Dオブジェクトのセグメンテーションは、十分に広範かつ正確にラベル付けされたマルチビュービデオデータセットが存在しないため、未発見の分野のままである。
本稿では、再構成現実シナリオにおけるオブジェクトセグメンテーションのトレーニングと評価のための、新しいマルチビュービデオデータセットMUVODを提案する。
室内および屋外の様々な活動について記述した17のシーンは、様々な種類のカメラリグから派生したデータセットの異なるソースから収集される。
各シーンは最低9ビュー、最大46ビューを含む。
7830枚のRGB画像(ビデオあたり30フレーム)に対応するセグメンテーションマスクを4Dモーションで表示し、シーンへの関心の対象は、与えられたビューの時間的フレームや、同じカメラリグに属する異なるビューにまたがって追跡することができる。
73カテゴリの459のインスタンスを含むこのデータセットは、マルチビュービデオセグメンテーション手法の評価のための基本的なベンチマークとして意図されている。
また,この発展分野の進歩を奨励し,評価するための評価指標とベースラインセグメンテーション手法を提案する。
さらに,MUVODデータセットから選択した注釈付き多視点画像のサブセットを用いた3次元オブジェクトセグメンテーションタスクのための新しいベンチマークを提案する。
このサブセットは、異なるシナリオにおける異なる条件の50のオブジェクトを含み、最先端の3Dオブジェクトセグメンテーションメソッドのより包括的な分析を提供する。
提案したMUVODデータセットはhttps://volumetric-repository.labs.b-com.com/#/muvod.comで公開されている。
関連論文リスト
- Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - A One Stop 3D Target Reconstruction and multilevel Segmentation Method [0.0]
オープンソースのワンストップ3Dターゲット再構成とマルチレベルセグメンテーションフレームワーク(OSTRA)を提案する。
OSTRAは2D画像上でセグメンテーションを行い、画像シーケンス内のセグメンテーションラベルで複数のインスタンスを追跡し、ラベル付き3Dオブジェクトまたは複数のパーツをMulti-View Stereo(MVS)またはRGBDベースの3D再構成手法で再構成する。
本手法は,複雑なシーンにおいて,リッチなマルチスケールセグメンテーション情報に埋め込まれた3次元ターゲットを再構築するための新たな道を開く。
論文 参考訳(メタデータ) (2023-08-14T07:12:31Z) - DiVa-360: The Dynamic Visual Dataset for Immersive Neural Fields [3.94718692655789]
DiVa-360は、リアルタイムの360度ダイナミック・ヴィジュアル・データセットであり、同期された高解像度および長期のマルチビュー・ビデオ・シーケンスを含んでいる。
我々は、Diva-360上で最先端の動的ニューラルネットワーク手法をベンチマークし、既存の手法と長期的ニューラルネットワークキャプチャにおける今後の課題について考察する。
論文 参考訳(メタデータ) (2023-07-31T17:59:48Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。