Fugu-MT 論文翻訳(概要): MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic Segmentation

論文の概要: MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic Segmentation

arxiv url: http://arxiv.org/abs/2205.15452v1
Date: Mon, 30 May 2022 22:37:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-01 14:20:30.756490
Title: MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic Segmentation
Title（参考訳）: MVMO:ワイドベースライン多視点セマンティックセマンティックセグメンテーションのためのマルチオブジェクトデータセット
Authors: Aitor Alvarez-Gila, Joost van de Weijer, Yaxing Wang, Estibaliz Garrote
Abstract要約: MVMO (Multi-View, Multi-Object dataset): 10の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。 MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。
参考スコア（独自算出の注目度）: 34.88648947680952
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present MVMO (Multi-View, Multi-Object dataset): a synthetic dataset of 116,000 scenes containing randomly placed objects of 10 distinct classes and captured from 25 camera locations in the upper hemisphere. MVMO comprises photorealistic, path-traced image renders, together with semantic segmentation ground truth for every view. Unlike existing multi-view datasets, MVMO features wide baselines between cameras and high density of objects, which lead to large disparities, heavy occlusions and view-dependent object appearance. Single view semantic segmentation is hindered by self and inter-object occlusions that could benefit from additional viewpoints. Therefore, we expect that MVMO will propel research in multi-view semantic segmentation and cross-view semantic transfer. We also provide baselines that show that new research is needed in such fields to exploit the complementary information of multi-view setups.
Abstract（参考訳）: MVMO (Multi-View, Multi-Object dataset): 10個の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。 MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。既存のマルチビューデータセットとは異なり、MVMOはカメラ間の幅広いベースラインと高密度のオブジェクトを備えており、大きな格差、重い閉塞、ビュー依存オブジェクトの外観をもたらす。単一ビューセマンティックセグメンテーションは、追加の視点から恩恵を受けることができる自己およびオブジェクト間オクルージョンによって妨げられる。したがって、mvmoはマルチビューセマンティクスセグメンテーションとクロスビューセマンティクス転送の研究を促進することを期待している。また,マルチビュー設定の補完的情報を活用するためには,新たな研究が必要であることを示すベースラインを提供する。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video [37.755852787082254]
我々はMOVi-MC-AC:Multiple Object Video with Multi-Cameras and Amodal Contentを紹介する。このデータセットは、これまでで最大のアモーダルセグメンテーションであり、最初のアモーダルコンテンツデータセットである。コンピュータビジョンの世界におけるディープラーニングへの新たなコントリビューションが2つ含まれています。
論文参考訳（メタデータ） (2025-07-01T00:36:56Z)
A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark [8.707197692292292]
これまでで最も大きく多様なRRSISデータセットであるNWPU-Referを導入し、49,745個の注釈付きターゲットを持つ30か国にまたがる15,003個の高解像度画像(1024-2048px)を含む。また、RRSISのユニークな要求に対応する新しいフレームワークであるMulti-scale Referring Network (MRSNet)を提案する。
論文参考訳（メタデータ） (2025-06-04T05:26:51Z)
MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation [14.144097766150397]
MMR(Multi-target and Multi-granularity Reasoning)と呼ばれるデータセットを提案する。 MMRは194Kの複雑で暗黙的な命令で構成されており、マルチターゲット、オブジェクトレベル、そして部分レベルの側面を考慮に入れている。本稿では,多目的,オブジェクトレベル,部分レベルの推論セグメンテーションのための,単純かつ効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-18T04:23:09Z)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文参考訳（メタデータ） (2024-06-07T03:13:46Z)
Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。 MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-06-06T16:20:07Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文参考訳（メタデータ） (2023-10-31T20:15:40Z)
Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文参考訳（メタデータ） (2023-04-13T17:59:40Z)
3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection [0.5156484100374059]
本稿では,3次元物体検出のためのマルチビュー,マルチパス,マルチ表現3M3Dを提案する。我々は、パノラマビューと粗いグローバルビューの両方において、シーンの表現を強化するために、マルチビュー機能とクエリ機能の両方を更新する。ベースライン上でnuScenesベンチマークデータセットのパフォーマンス改善を示す。
論文参考訳（メタデータ） (2023-02-16T11:28:30Z)
Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。多様なアプリケーションにおけるMViT提案の重要性を示す。
論文参考訳（メタデータ） (2021-11-22T18:59:29Z)
Learning Object-Centric Representations of Multi-Object Scenes from Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文参考訳（メタデータ） (2021-11-13T13:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。