論文の概要: MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2205.15452v1
- Date: Mon, 30 May 2022 22:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:20:30.756490
- Title: MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic
Segmentation
- Title(参考訳): MVMO:ワイドベースライン多視点セマンティックセマンティックセグメンテーションのためのマルチオブジェクトデータセット
- Authors: Aitor Alvarez-Gila, Joost van de Weijer, Yaxing Wang, Estibaliz
Garrote
- Abstract要約: MVMO (Multi-View, Multi-Object dataset): 10の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。
MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。
- 参考スコア(独自算出の注目度): 34.88648947680952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MVMO (Multi-View, Multi-Object dataset): a synthetic dataset of
116,000 scenes containing randomly placed objects of 10 distinct classes and
captured from 25 camera locations in the upper hemisphere. MVMO comprises
photorealistic, path-traced image renders, together with semantic segmentation
ground truth for every view. Unlike existing multi-view datasets, MVMO features
wide baselines between cameras and high density of objects, which lead to large
disparities, heavy occlusions and view-dependent object appearance. Single view
semantic segmentation is hindered by self and inter-object occlusions that
could benefit from additional viewpoints. Therefore, we expect that MVMO will
propel research in multi-view semantic segmentation and cross-view semantic
transfer. We also provide baselines that show that new research is needed in
such fields to exploit the complementary information of multi-view setups.
- Abstract(参考訳): MVMO (Multi-View, Multi-Object dataset): 10個の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。
MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。
既存のマルチビューデータセットとは異なり、MVMOはカメラ間の幅広いベースラインと高密度のオブジェクトを備えており、大きな格差、重い閉塞、ビュー依存オブジェクトの外観をもたらす。
単一ビューセマンティックセグメンテーションは、追加の視点から恩恵を受けることができる自己およびオブジェクト間オクルージョンによって妨げられる。
したがって、mvmoはマルチビューセマンティクスセグメンテーションとクロスビューセマンティクス転送の研究を促進することを期待している。
また,マルチビュー設定の補完的情報を活用するためには,新たな研究が必要であることを示すベースラインを提供する。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - 3M3D: Multi-view, Multi-path, Multi-representation for 3D Object
Detection [0.5156484100374059]
本稿では,3次元物体検出のためのマルチビュー,マルチパス,マルチ表現3M3Dを提案する。
我々は、パノラマビューと粗いグローバルビューの両方において、シーンの表現を強化するために、マルチビュー機能とクエリ機能の両方を更新する。
ベースライン上でnuScenesベンチマークデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2023-02-16T11:28:30Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。