Fugu-MT 論文翻訳(概要): Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

論文の概要: Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

arxiv url: http://arxiv.org/abs/2311.17893v2
Date: Mon, 8 Jul 2024 05:33:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 03:08:43.400372
Title: Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation
Title（参考訳）: Betrayed by Attention: 自己監督型ビデオオブジェクトセグメンテーションのためのシンプルで効果的なアプローチ
Authors: Shuangrui Ding, Rui Qian, Haohang Xu, Dahua Lin, Hongkai Xiong,
Abstract要約: 自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
参考スコア（独自算出の注目度）: 76.68301884987348
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a simple yet effective approach for self-supervised video object segmentation (VOS). Our key insight is that the inherent structural dependencies present in DINO-pretrained Transformers can be leveraged to establish robust spatio-temporal correspondences in videos. Furthermore, simple clustering on this correspondence cue is sufficient to yield competitive segmentation results. Previous self-supervised VOS techniques majorly resort to auxiliary modalities or utilize iterative slot attention to assist in object discovery, which restricts their general applicability and imposes higher computational requirements. To deal with these challenges, we develop a simplified architecture that capitalizes on the emerging objectness from DINO-pretrained Transformers, bypassing the need for additional modalities or slot attention. Specifically, we first introduce a single spatio-temporal Transformer block to process the frame-wise DINO features and establish spatio-temporal dependencies in the form of self-attention. Subsequently, utilizing these attention maps, we implement hierarchical clustering to generate object segmentation masks. To train the spatio-temporal block in a fully self-supervised manner, we employ semantic and dynamic motion consistency coupled with entropy normalization. Our method demonstrates state-of-the-art performance across multiple unsupervised VOS benchmarks and particularly excels in complex real-world multi-object video segmentation tasks such as DAVIS-17-Unsupervised and YouTube-VIS-19. The code and model checkpoints will be released at https://github.com/shvdiwnkozbw/SSL-UVOS.
Abstract（参考訳）: 本稿では,自己教師付きビデオオブジェクトセグメンテーション(VOS)のための,シンプルながら効果的なアプローチを提案する。我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を活用して、ビデオにおける堅牢な時空間対応を確立することである。さらに、この対応キュー上の単純なクラスタリングは、競合セグメンテーションの結果を得るのに十分である。従来の自己監督型VOS技術は、補助的なモダリティを主に利用したり、反復的なスロットアテンションを利用してオブジェクト発見を支援し、汎用性を制限し、より高い計算要求を課す。これらの課題に対処するため、我々は、DINO-pretrained Transformer から出現するオブジェクト性を利用して、追加のモダリティや注意をそらす必要を回避し、単純化されたアーキテクチャを開発する。具体的には、まず1つの時空間変換ブロックを導入し、フレームワイドDINO特徴を処理し、自己注意の形で時空間依存性を確立する。その後、これらの注目マップを利用して、階層的クラスタリングを実装し、オブジェクトセグメンテーションマスクを生成する。完全自己教師型で時空間ブロックを訓練するために,エントロピー正規化と組み合わせた意味的および動的運動整合性を用いる。 DAVIS-17-Unsupervised や YouTube-VIS-19 のような複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れている。コードとモデルチェックポイントはhttps://github.com/shvdiwnkozbw/SSL-UVOSでリリースされる。

関連論文リスト

VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。 MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文参考訳（メタデータ） (2025-01-14T03:15:46Z)
Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文参考訳（メタデータ） (2024-08-29T16:05:05Z)
Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文参考訳（メタデータ） (2024-04-09T12:44:34Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文参考訳（メタデータ） (2023-07-10T07:55:42Z)
Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。 AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文参考訳（メタデータ） (2022-03-22T03:33:27Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文参考訳（メタデータ） (2021-01-21T20:06:12Z)
Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。時間的情報を用いて、最小限の変更で迅速にフレームを識別する。フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文参考訳（メタデータ） (2020-12-21T19:40:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。