論文の概要: Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video
- arxiv url: http://arxiv.org/abs/2507.00339v1
- Date: Tue, 01 Jul 2025 00:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.140092
- Title: Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video
- Title(参考訳): X線ビジョンのためのトレーニング:マルチカメラ映像からのアモーダルセグメンテーション、アモーダルコンテントコンプリート、ビュー不変物体表現
- Authors: Alexander Moore, Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano,
- Abstract要約: 我々はMOVi-MC-AC:Multiple Object Video with Multi-Cameras and Amodal Contentを紹介する。
このデータセットは、これまでで最大のアモーダルセグメンテーションであり、最初のアモーダルコンテンツデータセットである。
コンピュータビジョンの世界におけるディープラーニングへの新たなコントリビューションが2つ含まれています。
- 参考スコア(独自算出の注目度): 37.755852787082254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Amodal segmentation and amodal content completion require using object priors to estimate occluded masks and features of objects in complex scenes. Until now, no data has provided an additional dimension for object context: the possibility of multiple cameras sharing a view of a scene. We introduce MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, the largest amodal segmentation and first amodal content dataset to date. Cluttered scenes of generic household objects are simulated in multi-camera video. MOVi-MC-AC contributes to the growing literature of object detection, tracking, and segmentation by including two new contributions to the deep learning for computer vision world. Multiple Camera (MC) settings where objects can be identified and tracked between various unique camera perspectives are rare in both synthetic and real-world video. We introduce a new complexity to synthetic video by providing consistent object ids for detections and segmentations between both frames and multiple cameras each with unique features and motion patterns on a single scene. Amodal Content (AC) is a reconstructive task in which models predict the appearance of target objects through occlusions. In the amodal segmentation literature, some datasets have been released with amodal detection, tracking, and segmentation labels. While other methods rely on slow cut-and-paste schemes to generate amodal content pseudo-labels, they do not account for natural occlusions present in the modal masks. MOVi-MC-AC provides labels for ~5.8 million object instances, setting a new maximum in the amodal dataset literature, along with being the first to provide ground-truth amodal content. The full dataset is available at https://huggingface.co/datasets/Amar-S/MOVi-MC-AC ,
- Abstract(参考訳): アモーダルセグメンテーションとアモーダルコンテントコンプリートは、複雑なシーンにおける隠蔽マスクとオブジェクトの特徴を推定するために、オブジェクト事前を使用する必要がある。
これまでは、複数のカメラがシーンのビューを共有する可能性という、オブジェクトコンテキストのための追加の次元を提供していなかった。
我々は,MOVi-MC-AC:Multiple Object Video with Multi-Cameras and Amodal Contentを紹介した。
汎用的な家庭用オブジェクトのシャッターシーンは、マルチカメラビデオでシミュレートされる。
MOVi-MC-ACは、コンピュータビジョンの世界におけるディープラーニングへの2つの新しい貢献を含めることで、オブジェクトの検出、追跡、セグメンテーションの文献の増大に貢献している。
複数のカメラ(MC)の設定では、さまざまなカメラの視点でオブジェクトを識別し、追跡することは、合成ビデオと実世界のビデオの両方で稀である。
合成ビデオに新しい複雑さを導入し、フレームと複数のカメラ間の一貫したオブジェクトIDを1つのシーンでそれぞれ一貫した特徴と動きパターンで提供する。
Amodal Content (AC) は、モデルがオクルージョンを通して対象物の出現を予測する再構成作業である。
アモーダルセグメンテーションの文献では、いくつかのデータセットがアモーダル検出、追跡、セグメンテーションラベルと共にリリースされている。
他の方法は、非モーダルな内容の擬似ラベルを生成するための遅いカット・アンド・ペースト方式に依存しているが、それらはモーダルマスクに存在する自然な閉塞を考慮に入れていない。
MOVi-MC-ACは、約580万のオブジェクトインスタンスのラベルを提供し、アモーダルデータセットの文献に新しい最大値を設定し、また、アモーダルコンテンツを提供する最初の企業である。
完全なデータセットはhttps://huggingface.co/datasets/Amar-S/MOVi-MC-AC で公開されている。
関連論文リスト
- A2VIS: Amodal-Aware Approach to Video Instance Segmentation [8.082593574401704]
本稿では,映像中のオブジェクトの包括的理解を実現するために,アモーダル表現を取り入れた新しいフレームワーク,A2VISを提案する。
A2VIS(Amodal-Aware Video Instance)は、ビデオ内のオブジェクトの可視部分と隠蔽部分の両方について、信頼性の高い包括的な理解を実現するために、アモーダル表現を取り入れている。
論文 参考訳(メタデータ) (2024-12-02T05:44:29Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。