論文の概要: InstanceFormer: An Online Video Instance Segmentation Framework
- arxiv url: http://arxiv.org/abs/2208.10547v1
- Date: Mon, 22 Aug 2022 18:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:07:38.937994
- Title: InstanceFormer: An Online Video Instance Segmentation Framework
- Title(参考訳): InstanceFormer: オンラインビデオインスタンスセグメンテーションフレームワーク
- Authors: Rajat Koner, Tanveer Hannan, Suprosanna Shit, Sahand Sharifzadeh,
Matthias Schubert, Thomas Seidl, Volker Tresp
- Abstract要約: 本稿では,一段変換器を用いた効率的なオンラインVISフレームワーク InstanceFormer を提案する。
本稿では,短期的・長期的依存と時間的コヒーレンスをモデル化するための3つの新しいコンポーネントを提案する。
提案されたInstanceFormerは、従来のオンラインベンチマークメソッドよりも、複数のデータセットで大きなマージンを達成している。
- 参考スコア(独自算出の注目度): 21.760243214387987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent transformer-based offline video instance segmentation (VIS) approaches
achieve encouraging results and significantly outperform online approaches.
However, their reliance on the whole video and the immense computational
complexity caused by full Spatio-temporal attention limit them in real-life
applications such as processing lengthy videos. In this paper, we propose a
single-stage transformer-based efficient online VIS framework named
InstanceFormer, which is especially suitable for long and challenging videos.
We propose three novel components to model short-term and long-term dependency
and temporal coherence. First, we propagate the representation, location, and
semantic information of prior instances to model short-term changes. Second, we
propose a novel memory cross-attention in the decoder, which allows the network
to look into earlier instances within a certain temporal window. Finally, we
employ a temporal contrastive loss to impose coherence in the representation of
an instance across all frames. Memory attention and temporal coherence are
particularly beneficial to long-range dependency modeling, including
challenging scenarios like occlusion. The proposed InstanceFormer outperforms
previous online benchmark methods by a large margin across multiple datasets.
Most importantly, InstanceFormer surpasses offline approaches for challenging
and long datasets such as YouTube-VIS-2021 and OVIS. Code is available at
https://github.com/rajatkoner08/InstanceFormer.
- Abstract(参考訳): 最近のtransformerベースのオフラインビデオインスタンスセグメンテーション(vis)アプローチは、成果を奨励し、オンラインアプローチを大きく上回っている。
しかし、ビデオ全体への依存と、フル時空間的注意によって引き起こされる膨大な計算複雑性は、ビデオの処理などの現実的な応用において制限される。
本稿では,一段変換器を用いた効率的なオンラインVISフレームワークであるInstanceFormerを提案する。
短期および長期の依存関係と時間的一貫性をモデル化するための3つの新しいコンポーネントを提案する。
まず、先行インスタンスの表現、位置、意味情報を伝播して短期的な変化をモデル化する。
第二に、デコーダに新しいメモリクロスアテンションを提案し、ある時間ウィンドウ内で、ネットワークが以前のインスタンスを検索できるようにする。
最後に、すべてのフレームにまたがるインスタンスの表現に一貫性を課すために、時間的コントラスト損失を用いる。
記憶の注意と時間的コヒーレンスは、オクルージョンのような困難なシナリオを含む、長距離依存性モデリングに特に有用である。
提案するインスタンスフォーマは、従来のオンラインベンチマークメソッドを、複数のデータセットに対して大きなマージンで上回っている。
最も重要なのは、YouTube-VIS-2021やOVISといった、挑戦的で長いデータセットに対するオフラインアプローチを上回ることだ。
コードはhttps://github.com/rajatkoner08/InstanceFormerで入手できる。
関連論文リスト
- Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - Hybrid Instance-aware Temporal Fusion for Online Video Instance
Segmentation [23.001856276175506]
本稿では,新しいインスタンス対応時間融合手法を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。
我々のモデルは,全オンラインVIS手法の中で最高の性能を達成している。
論文 参考訳(メタデータ) (2021-12-03T03:37:57Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。