論文の概要: Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos
- arxiv url: http://arxiv.org/abs/2308.09951v2
- Date: Thu, 21 Mar 2024 09:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:19:41.814478
- Title: Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos
- Title(参考訳): ビデオにおける自己教師型オブジェクト中心学習
- Authors: Rui Qian, Shuangrui Ding, Xian Liu, Dahua Lin,
- Abstract要約: 自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
- 参考スコア(独自算出の注目度): 63.94040814459116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods have shown remarkable progress in learning high-level semantics and low-level temporal correspondence. Building on these results, we take one step further and explore the possibility of integrating these two features to enhance object-centric representations. Our preliminary experiments indicate that query slot attention can extract different semantic components from the RGB feature map, while random sampling based slot attention can exploit temporal correspondence cues between frames to assist instance identification. Motivated by this, we propose a novel semantic-aware masked slot attention on top of the fused semantic features and correspondence maps. It comprises two slot attention stages with a set of shared learnable Gaussian distributions. In the first stage, we use the mean vectors as slot initialization to decompose potential semantics and generate semantic segmentation masks through iterative attention. In the second stage, for each semantics, we randomly sample slots from the corresponding Gaussian distribution and perform masked feature aggregation within the semantic area to exploit temporal correspondence patterns for instance identification. We adopt semantic- and instance-level temporal consistency as self-supervision to encourage temporally coherent object-centric representations. Our model effectively identifies multiple object instances with semantic structure, reaching promising results on unsupervised video object discovery. Furthermore, we achieve state-of-the-art performance on dense label propagation tasks, demonstrating the potential for object-centric analysis. The code is released at https://github.com/shvdiwnkozbw/SMTC.
- Abstract(参考訳): 自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
これらの結果に基づいて、さらに一歩進めて、オブジェクト中心の表現を強化するためにこれらの2つの特徴を統合する可能性を探る。
予備実験では,RGB特徴マップから問合せスロットアテンションを抽出し,ランダムサンプリングに基づくスロットアテンションはフレーム間の時間的対応を利用してインスタンス識別を支援する。
そこで本研究では,融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
2つのスロットアテンションステージと共有可学習ガウス分布からなる。
第1段階では、平均ベクトルをスロット初期化として、潜在的な意味論を分解し、反復的注意を通してセマンティックセグメンテーションマスクを生成する。
第2段階では、各意味論において、対応するガウス分布からスロットをランダムにサンプリングし、意味領域内でマスク付き特徴集約を行い、事例識別のための時間対応パターンを利用する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
本モデルでは,複数のオブジェクトをセマンティックな構造で効果的に識別し,教師なしビデオオブジェクト発見において有望な結果を得る。
さらに,高密度ラベル伝搬タスクにおける最先端性能を実現し,オブジェクト中心解析の可能性を示す。
コードはhttps://github.com/shvdiwnkozbw/SMTCで公開されている。
関連論文リスト
- Mutually-Aware Feature Learning for Few-Shot Object Counting [20.623402944601775]
追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。
本稿では,質問文と模範的特徴を相互に認識する,MAFEA(Mutually-Aware FEAture Learning)という新しいフレームワークを提案する。
本モデルでは, FSCD-LVIS と FSC-147 の2つのベンチマークにおいて, 目標混乱の程度を著しく低減し, 新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T06:46:24Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - FM-Fusion: Instance-aware Semantic Mapping Boosted by Vision-Language Foundation Models [24.77953131753715]
視覚言語基礎モデルの開発は、データ分散における強力なゼロショット転送可能性を示している。
本稿では,開集合ラベル測定から近接集合意味クラスを予測するための確率的ラベル融合法を提案する。
我々は,すべてのモジュールを統合意味マッピングシステムに統合し,RGB-D入力のシーケンスを読み取って,インスタンス認識意味マップを漸進的に再構築する。
論文 参考訳(メタデータ) (2024-02-07T03:19:02Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。