論文の概要: GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2305.17096v1
- Date: Fri, 26 May 2023 17:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:17:35.882126
- Title: GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance
Segmentation
- Title(参考訳): GRAtt-VIS: 自動修正ビデオインスタンスセグメンテーションのための残像注意
- Authors: Tanveer Hannan, Rajat Koner, Maximilian Bernhard, Suprosanna Shit,
Bjoern Menze, Volker Tresp, Matthias Schubert, Thomas Seidl
- Abstract要約: ビデオインスタンス(VIS)の最近のトレンドは、複雑で長いビデオシーケンスをモデル化するオンライン手法に依存している。
表現の劣化と雑音の蓄積は重大な課題となる。
textbfVideo textbfInstance textbfSegmentation に対して textbfGated textbfResidual textbfAttention を導入する。
- 参考スコア(独自算出の注目度): 20.70044082417488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent trends in Video Instance Segmentation (VIS) have seen a growing
reliance on online methods to model complex and lengthy video sequences.
However, the degradation of representation and noise accumulation of the online
methods, especially during occlusion and abrupt changes, pose substantial
challenges. Transformer-based query propagation provides promising directions
at the cost of quadratic memory attention. However, they are susceptible to the
degradation of instance features due to the above-mentioned challenges and
suffer from cascading effects. The detection and rectification of such errors
remain largely underexplored. To this end, we introduce \textbf{GRAtt-VIS},
\textbf{G}ated \textbf{R}esidual \textbf{Att}ention for \textbf{V}ideo
\textbf{I}nstance \textbf{S}egmentation. Firstly, we leverage a
Gumbel-Softmax-based gate to detect possible errors in the current frame. Next,
based on the gate activation, we rectify degraded features from its past
representation. Such a residual configuration alleviates the need for dedicated
memory and provides a continuous stream of relevant instance features.
Secondly, we propose a novel inter-instance interaction using gate activation
as a mask for self-attention. This masking strategy dynamically restricts the
unrepresentative instance queries in the self-attention and preserves vital
information for long-term tracking. We refer to this novel combination of Gated
Residual Connection and Masked Self-Attention as \textbf{GRAtt} block, which
can easily be integrated into the existing propagation-based framework.
Further, GRAtt blocks significantly reduce the attention overhead and simplify
dynamic temporal modeling. GRAtt-VIS achieves state-of-the-art performance on
YouTube-VIS and the highly challenging OVIS dataset, significantly improving
over previous methods. Code is available at
\url{https://github.com/Tanveer81/GRAttVIS}.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)の最近のトレンドは、複雑で長いビデオシーケンスをモデル化するオンライン手法に依存している。
しかし,オンライン手法,特に咬合時および急変時における表現の劣化とノイズ蓄積は,大きな課題となっている。
トランスフォーマティブベースのクエリプロパゲーションは、二次記憶の注意を犠牲にして、有望な方向性を提供する。
しかし、上記の課題によりインスタンスの特徴の低下に影響を受けやすく、カスケード効果に苦しむ。
このようなエラーの検出と修正は、ほとんど未調査のままである。
この目的のために、 \textbf{GRAtt-VIS}, \textbf{G}ated \textbf{R}esidual \textbf{Att}ention for \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentationを紹介する。
まず、gumbel-softmaxベースのゲートを利用して、現在のフレームで起こりうるエラーを検出する。
次に、ゲートアクティベーションに基づいて、過去の表現から劣化した特徴を補正する。
このような残差構成は専用メモリの必要性を緩和し、関連するインスタンス機能の継続的なストリームを提供する。
第二に,ゲートアクティベーションを自己注意マスクとして用いた新しいインスタンス間相互作用を提案する。
このマスキング戦略は、自己アテンションにおける非表現インスタンスクエリを動的に制限し、長期追跡のための重要な情報を保持する。
我々は、ゲート付き残差接続とマスク付き自己アテンションの新たな組み合わせを \textbf{gratt} ブロックと呼び、既存の伝播ベースのフレームワークに容易に統合できる。
さらに、grattブロックは注意のオーバーヘッドを大幅に削減し、動的テンポラリモデリングを単純化する。
GRAtt-VISは、YouTube-VISと非常に挑戦的なOVISデータセット上で最先端のパフォーマンスを実現し、以前の方法よりも大幅に改善された。
コードは \url{https://github.com/Tanveer81/GRAttVIS} で入手できる。
関連論文リスト
- Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文 参考訳(メタデータ) (2024-08-29T16:05:05Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - InstanceFormer: An Online Video Instance Segmentation Framework [21.760243214387987]
本稿では,一段変換器を用いた効率的なオンラインVISフレームワーク InstanceFormer を提案する。
本稿では,短期的・長期的依存と時間的コヒーレンスをモデル化するための3つの新しいコンポーネントを提案する。
提案されたInstanceFormerは、従来のオンラインベンチマークメソッドよりも、複数のデータセットで大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-08-22T18:54:18Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。