論文の概要: Semantics Meets Temporal Correspondence: Self-supervised Object-centric
Learning in Videos
- arxiv url: http://arxiv.org/abs/2308.09951v1
- Date: Sat, 19 Aug 2023 09:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:48:31.585367
- Title: Semantics Meets Temporal Correspondence: Self-supervised Object-centric
Learning in Videos
- Title(参考訳): ビデオにおける自己教師型オブジェクト中心学習
- Authors: Rui Qian, Shuangrui Ding, Xian Liu and Dahua Lin
- Abstract要約: 自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
- 参考スコア(独自算出の注目度): 69.85030245036391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods have shown remarkable progress in learning high-level
semantics and low-level temporal correspondence. Building on these results, we
take one step further and explore the possibility of integrating these two
features to enhance object-centric representations. Our preliminary experiments
indicate that query slot attention can extract different semantic components
from the RGB feature map, while random sampling based slot attention can
exploit temporal correspondence cues between frames to assist instance
identification. Motivated by this, we propose a novel semantic-aware masked
slot attention on top of the fused semantic features and correspondence maps.
It comprises two slot attention stages with a set of shared learnable Gaussian
distributions. In the first stage, we use the mean vectors as slot
initialization to decompose potential semantics and generate semantic
segmentation masks through iterative attention. In the second stage, for each
semantics, we randomly sample slots from the corresponding Gaussian
distribution and perform masked feature aggregation within the semantic area to
exploit temporal correspondence patterns for instance identification. We adopt
semantic- and instance-level temporal consistency as self-supervision to
encourage temporally coherent object-centric representations. Our model
effectively identifies multiple object instances with semantic structure,
reaching promising results on unsupervised video object discovery. Furthermore,
we achieve state-of-the-art performance on dense label propagation tasks,
demonstrating the potential for object-centric analysis. The code is released
at https://github.com/shvdiwnkozbw/SMTC.
- Abstract(参考訳): 自己教師あり手法は、高レベル意味論と低レベル時間対応の学習において顕著な進歩を示している。
これらの結果に基づいて、さらに一歩進めて、オブジェクト中心の表現を強化するためにこれらの2つの特徴を統合する可能性を探る。
予備実験では,クエリスロットの注意がrgb特徴マップから異なる意味成分を抽出できるのに対し,ランダムサンプリングに基づくスロットの注意はフレーム間の時間的対応の手がかりを活用し,インスタンス識別を支援する。
そこで本研究では,融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
2つのスロットアテンションステージと、共有学習可能なガウス分布からなる。
第1段階では、平均ベクトルをスロット初期化として、潜在的な意味論を分解し、反復的注意を通してセマンティックセグメンテーションマスクを生成する。
第2段階では、各意味論について、対応するガウス分布からスロットをランダムにサンプリングし、意味領域内でマスキング特徴集約を行い、インスタンス識別に時間対応パターンを利用する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
提案モデルでは,複数のオブジェクトインスタンスを意味構造で効果的に識別し,教師なしのビデオオブジェクト発見に有望な結果が得られる。
さらに,高密度ラベル伝搬タスクにおける最先端性能を実現し,オブジェクト中心解析の可能性を示す。
コードはhttps://github.com/shvdiwnkozbw/smtcでリリースされる。
関連論文リスト
- Mutually-Aware Feature Learning for Few-Shot Object Counting [20.623402944601775]
追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。
本稿では,質問文と模範的特徴を相互に認識する,MAFEA(Mutually-Aware FEAture Learning)という新しいフレームワークを提案する。
本モデルでは, FSCD-LVIS と FSC-147 の2つのベンチマークにおいて, 目標混乱の程度を著しく低減し, 新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T06:46:24Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - FM-Fusion: Instance-aware Semantic Mapping Boosted by Vision-Language Foundation Models [24.77953131753715]
視覚言語基礎モデルの開発は、データ分散における強力なゼロショット転送可能性を示している。
本稿では,開集合ラベル測定から近接集合意味クラスを予測するための確率的ラベル融合法を提案する。
我々は,すべてのモジュールを統合意味マッピングシステムに統合し,RGB-D入力のシーケンスを読み取って,インスタンス認識意味マップを漸進的に再構築する。
論文 参考訳(メタデータ) (2024-02-07T03:19:02Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。