論文の概要: Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2501.07806v1
- Date: Tue, 14 Jan 2025 03:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:21.813325
- Title: Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのための学習動作とテンポラルキュー
- Authors: Yunzhi Zhuge, Hongyu Gu, Lu Zhang, Jinqing Qi, Huchuan Lu,
- Abstract要約: 本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
- 参考スコア(独自算出の注目度): 49.113131249753714
- License:
- Abstract: In this paper, we address the challenges in unsupervised video object segmentation (UVOS) by proposing an efficient algorithm, termed MTNet, which concurrently exploits motion and temporal cues. Unlike previous methods that focus solely on integrating appearance with motion or on modeling temporal relations, our method combines both aspects by integrating them within a unified framework. MTNet is devised by effectively merging appearance and motion features during the feature extraction process within encoders, promoting a more complementary representation. To capture the intricate long-range contextual dynamics and information embedded within videos, a temporal transformer module is introduced, facilitating efficacious inter-frame interactions throughout a video clip. Furthermore, we employ a cascade of decoders all feature levels across all feature levels to optimally exploit the derived features, aiming to generate increasingly precise segmentation masks. As a result, MTNet provides a strong and compact framework that explores both temporal and cross-modality knowledge to robustly localize and track the primary object accurately in various challenging scenarios efficiently. Extensive experiments across diverse benchmarks conclusively show that our method not only attains state-of-the-art performance in unsupervised video object segmentation but also delivers competitive results in video salient object detection. These findings highlight the method's robust versatility and its adeptness in adapting to a range of segmentation tasks. Source code is available on https://github.com/hy0523/MTNet.
- Abstract(参考訳): 本稿では,非教師付きビデオオブジェクトセグメンテーション(UVOS)の課題に対して,動きと時間的手がかりを同時に活用するMTNetと呼ばれる効率的なアルゴリズムを提案する。
動作と外見の統合や時間関係のモデリングにのみ焦点をあてる従来の手法とは異なり,本手法は両側面を統合フレームワークに統合することによって組み合わせる。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージして、より補完的な表現を促進する。
ビデオ内に埋め込まれた複雑な長距離コンテキストダイナミクスと情報をキャプチャするために、時間変換モジュールを導入し、ビデオクリップ全体のフレーム間相互作用を効果的に行う。
さらに,全ての特徴レベルのデコーダのカスケードを用いて,抽出した特徴を最適に活用し,より正確なセグメンテーションマスクを生成する。
その結果、MTNetは、時間的および横断的モダリティの知識を探索し、様々な困難なシナリオにおいて、主要なオブジェクトを正確にローカライズし、追跡する、強力でコンパクトなフレームワークを提供する。
本手法は, 教師なし映像オブジェクトのセグメンテーションにおいて, 最先端の性能を達成するだけでなく, 映像の有意な物体検出において, 競合的な結果をもたらすことを示す。
これらの知見は, 本手法の頑健な汎用性と, セグメンテーションタスクへの適応性を明らかにするものである。
ソースコードはhttps://github.com/hy0523/MTNetで入手できる。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。