論文の概要: A2VIS: Amodal-Aware Approach to Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2412.01147v1
- Date: Mon, 02 Dec 2024 05:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:25.022040
- Title: A2VIS: Amodal-Aware Approach to Video Instance Segmentation
- Title(参考訳): A2VIS: Amodal-Aware Approach to Video Instance Segmentation
- Authors: Minh Tran, Thang Pham, Winston Bounsavy, Tri Nguyen, Ngan Le,
- Abstract要約: 本稿では,映像中のオブジェクトの包括的理解を実現するために,アモーダル表現を取り入れた新しいフレームワーク,A2VISを提案する。
A2VIS(Amodal-Aware Video Instance)は、ビデオ内のオブジェクトの可視部分と隠蔽部分の両方について、信頼性の高い包括的な理解を実現するために、アモーダル表現を取り入れている。
- 参考スコア(独自算出の注目度): 8.082593574401704
- License:
- Abstract: Handling occlusion remains a significant challenge for video instance-level tasks like Multiple Object Tracking (MOT) and Video Instance Segmentation (VIS). In this paper, we propose a novel framework, Amodal-Aware Video Instance Segmentation (A2VIS), which incorporates amodal representations to achieve a reliable and comprehensive understanding of both visible and occluded parts of objects in a video. The key intuition is that awareness of amodal segmentation through spatiotemporal dimension enables a stable stream of object information. In scenarios where objects are partially or completely hidden from view, amodal segmentation offers more consistency and less dramatic changes along the temporal axis compared to visible segmentation. Hence, both amodal and visible information from all clips can be integrated into one global instance prototype. To effectively address the challenge of video amodal segmentation, we introduce the spatiotemporal-prior Amodal Mask Head, which leverages visible information intra clips while extracting amodal characteristics inter clips. Through extensive experiments and ablation studies, we show that A2VIS excels in both MOT and VIS tasks in identifying and tracking object instances with a keen understanding of their full shape.
- Abstract(参考訳): 閉塞処理は、Multiple Object Tracking (MOT) や Video Instance Segmentation (VIS) といった、ビデオインスタンスレベルのタスクでは依然として大きな課題である。
本稿では,映像中のオブジェクトの可視部分と隠蔽部分の両方の信頼性と包括的理解を実現するために,アモーダル表現を組み込んだA2VIS(Amodal-Aware Video Instance Segmentation)を提案する。
鍵となる直感は、時空間次元によるアモーダルセグメンテーションの認識は、安定したオブジェクト情報のストリームを可能にすることである。
オブジェクトが部分的にあるいは完全にビューから隠されている場合、アモーダルセグメンテーションは、可視セグメンテーションよりも時間軸に沿ってより一貫性があり、劇的な変化が少ない。
したがって、すべてのクリップからのアモーダル情報と可視情報の両方を、ひとつのグローバルインスタンスプロトタイプに統合することができる。
ビデオ・アモーダル・セグメンテーションの課題に対して,ビデオ・アモーダル・セグメンテーションの課題を効果的に解決するために,ビデオ・アモーダル・マスク・ヘッド (Amodal Mask Head) を導入する。
広範囲にわたる実験とアブレーション研究を通じて、A2VISはMOTとVISの両方のタスクにおいて、オブジェクトのインスタンスの同定と追跡において、その全形状を深く理解していることを示す。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation [11.51684042494713]
ShapeFormerは、可視的からアモーダルな遷移を持つTransformerベースのモデルである。
これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。
ShapeFormerは3つの主要なモジュールから構成される: 可視性オクルージョンマスクヘッド(Visible-Occluding Mask Head) 隠蔽認識による視認性セグメンテーション(Visible-Occluding Mask Head) および (ii) アモーダルマスクと隠蔽マスク(Occluded masks) および (iii) 形状事前知識を提供するためのカテゴリー特定形状マスクマスクヘッド(Caegory-Specific Shape Pretriever) である。
論文 参考訳(メタデータ) (2024-03-18T00:03:48Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。