論文の概要: Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2204.10765v1
- Date: Fri, 22 Apr 2022 15:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:17:38.995316
- Title: Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation
- Title(参考訳): タグに基づくビデオインスタンスセグメンテーションのためのボトムアップアプローチ
- Authors: Jyoti Kini and Mubarak Shah
- Abstract要約: ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
- 参考スコア(独自算出の注目度): 83.13610762450703
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Instance Segmentation is a fundamental computer vision task that deals
with segmenting and tracking object instances across a video sequence. Most
existing methods typically accomplish this task by employing a multi-stage
top-down approach that usually involves separate networks to detect and segment
objects in each frame, followed by associating these detections in consecutive
frames using a learned tracking head. In this work, however, we introduce a
simple end-to-end trainable bottom-up approach to achieve instance mask
predictions at the pixel-level granularity, instead of the typical
region-proposals-based approach. Unlike contemporary frame-based models, our
network pipeline processes an input video clip as a single 3D volume to
incorporate temporal information. The central idea of our formulation is to
solve the video instance segmentation task as a tag assignment problem, such
that generating distinct tag values essentially separates individual object
instances across the video sequence (here each tag could be any arbitrary value
between 0 and 1). To this end, we propose a novel spatio-temporal tagging loss
that allows for sufficient separation of different objects as well as necessary
identification of different instances of the same object. Furthermore, we
present a tag-based attention module that improves instance tags, while
concurrently learning instance propagation within a video. Evaluations
demonstrate that our method provides competitive results on YouTube-VIS and
DAVIS-19 datasets, and has minimum run-time compared to other state-of-the-art
performance methods.
- Abstract(参考訳): Video Instance Segmentationは、ビデオシーケンスにわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
既存のほとんどの方法は、通常、各フレーム内のオブジェクトを検出し、セグメンテーションするために別々のネットワークを必要とする多段階トップダウンアプローチを採用し、学習したトラッキングヘッドを使用して、これらの検出を連続フレームに関連付けることで、このタスクを実現する。
しかし,本研究では,通常の領域プロモーター方式ではなく,画素レベルの粒度でのインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ手法を提案する。
現代のフレームベースモデルとは異なり、我々のネットワークパイプラインは入力ビデオクリップを1つの3次元ボリュームとして処理し、時間情報を組み込む。
提案手法の主な考え方は,タグ割り当て問題としてビデオインスタンスセグメンテーションタスクを解決し,個別のタグ値を生成することで,ビデオシーケンス全体の個々のオブジェクトインスタンスを本質的に分離することである(ここで,各タグは0と1の間の任意の値になる可能性がある)。
そこで本研究では,異なるオブジェクトの十分な分離と同一オブジェクトの異なるインスタンスの同定が可能な,新しい時空間的タグ付け損失を提案する。
さらに,ビデオ内で同時にインスタンスの伝搬を学習しながら,インスタンスタグを改善するタグベースのアテンションモジュールを提案する。
評価の結果,本手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供し,他の最先端のパフォーマンス手法と比較して最小限の実行時間を有することがわかった。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。