論文の概要: Guided Slot Attention for Unsupervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2303.08314v1
- Date: Wed, 15 Mar 2023 02:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:05:17.994797
- Title: Guided Slot Attention for Unsupervised Video Object Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのためのガイドスロット注意
- Authors: Minhyeok Lee, Suhwan Cho, Dogyoon Lee, Chaewon Park, Jungho Lee,
Sangyoun Lee
- Abstract要約: 本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.028135242344494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation aims to segment the most prominent
object in a video sequence. However, the existence of complex backgrounds and
multiple foreground objects make this task challenging. To address this issue,
we propose a guided slot attention network to reinforce spatial structural
information and obtain better foreground--background separation. The foreground
and background slots, which are initialized with query guidance, are
iteratively refined based on interactions with template information.
Furthermore, to improve slot--template interaction and effectively fuse global
and local features in the target and reference frames, K-nearest neighbors
filtering and a feature aggregation transformer are introduced. The proposed
model achieves state-of-the-art performance on two popular datasets.
Additionally, we demonstrate the robustness of the proposed model in
challenging scenes through various comparative experiments.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーションは、ビデオシーケンスにおいて最も顕著なオブジェクトをセグメンテーションすることを目的としている。
しかし、複雑な背景と複数の前景オブジェクトの存在は、この課題を難しくしている。
To address this issue, we propose a guided slot attention network to reinforce spatial structural information and obtain better foreground--background separation. The foreground and background slots, which are initialized with query guidance, are iteratively refined based on interactions with template information. Furthermore, to improve slot--template interaction and effectively fuse global and local features in the target and reference frames, K-nearest neighbors filtering and a feature aggregation transformer are introduced.
提案モデルは2つの人気のあるデータセットで最先端のパフォーマンスを実現する。
さらに,様々な比較実験による挑戦場面におけるモデルの有効性を示す。
関連論文リスト
- Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Co-segmentation Inspired Attention Module for Video-based Computer
Vision Tasks [11.61956970623165]
本稿では,コセグメンテーション・モジュール・アクティベーション(COSAM)と呼ばれる汎用モジュールを提案する。
ビデオベースタスクにおけるCOSAMの適用例として,1)ビデオベースの人物再ID,2)ビデオキャプション,3)ビデオアクション分類の3つを挙げる。
論文 参考訳(メタデータ) (2021-11-14T15:35:37Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [103.39135128404924]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。