論文の概要: MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2205.15452v1
- Date: Mon, 30 May 2022 22:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:20:30.756490
- Title: MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic
Segmentation
- Title(参考訳): MVMO:ワイドベースライン多視点セマンティックセマンティックセグメンテーションのためのマルチオブジェクトデータセット
- Authors: Aitor Alvarez-Gila, Joost van de Weijer, Yaxing Wang, Estibaliz
Garrote
- Abstract要約: MVMO (Multi-View, Multi-Object dataset): 10の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。
MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。
- 参考スコア(独自算出の注目度): 34.88648947680952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MVMO (Multi-View, Multi-Object dataset): a synthetic dataset of
116,000 scenes containing randomly placed objects of 10 distinct classes and
captured from 25 camera locations in the upper hemisphere. MVMO comprises
photorealistic, path-traced image renders, together with semantic segmentation
ground truth for every view. Unlike existing multi-view datasets, MVMO features
wide baselines between cameras and high density of objects, which lead to large
disparities, heavy occlusions and view-dependent object appearance. Single view
semantic segmentation is hindered by self and inter-object occlusions that
could benefit from additional viewpoints. Therefore, we expect that MVMO will
propel research in multi-view semantic segmentation and cross-view semantic
transfer. We also provide baselines that show that new research is needed in
such fields to exploit the complementary information of multi-view setups.
- Abstract(参考訳): MVMO (Multi-View, Multi-Object dataset): 10個の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。
MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。
既存のマルチビューデータセットとは異なり、MVMOはカメラ間の幅広いベースラインと高密度のオブジェクトを備えており、大きな格差、重い閉塞、ビュー依存オブジェクトの外観をもたらす。
単一ビューセマンティックセグメンテーションは、追加の視点から恩恵を受けることができる自己およびオブジェクト間オクルージョンによって妨げられる。
したがって、mvmoはマルチビューセマンティクスセグメンテーションとクロスビューセマンティクス転送の研究を促進することを期待している。
また,マルチビュー設定の補完的情報を活用するためには,新たな研究が必要であることを示すベースラインを提供する。
関連論文リスト
- Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,画像間の共通部分と一意部分の識別と分割を目的とした,部分中心のセマンティック・セマンティック・セマンティック・セグメンテーションの新たな課題を紹介する。
画像間で複数のマスクを分割・推論できる最初のLVLMであるCALICOについて述べる。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。