論文の概要: Temporally Consistent Object-Centric Learning by Contrasting Slots
- arxiv url: http://arxiv.org/abs/2412.14295v1
- Date: Wed, 18 Dec 2024 19:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:47.332324
- Title: Temporally Consistent Object-Centric Learning by Contrasting Slots
- Title(参考訳): スロットの対比による時間的一貫した物体中心学習
- Authors: Anna Manasyan, Maximilian Seitzer, Filip Radovic, Georg Martius, Andrii Zadaianchuk,
- Abstract要約: ビデオオブジェクト中心モデルに対して、新しいオブジェクトレベルの時間的コントラスト損失を導入する。
本手法は学習対象中心表現の時間的一貫性を著しく向上させる。
- 参考スコア(独自算出の注目度): 23.203973564679508
- License:
- Abstract: Unsupervised object-centric learning from videos is a promising approach to extract structured representations from large, unlabeled collections of videos. To support downstream tasks like autonomous control, these representations must be both compositional and temporally consistent. Existing approaches based on recurrent processing often lack long-term stability across frames because their training objective does not enforce temporal consistency. In this work, we introduce a novel object-level temporal contrastive loss for video object-centric models that explicitly promotes temporal consistency. Our method significantly improves the temporal consistency of the learned object-centric representations, yielding more reliable video decompositions that facilitate challenging downstream tasks such as unsupervised object dynamics prediction. Furthermore, the inductive bias added by our loss strongly improves object discovery, leading to state-of-the-art results on both synthetic and real-world datasets, outperforming even weakly-supervised methods that leverage motion masks as additional cues.
- Abstract(参考訳): ビデオから教師なしのオブジェクト中心学習は、大規模でラベルのないビデオコレクションから構造化された表現を抽出する、有望なアプローチである。
自律的な制御のような下流タスクをサポートするためには、これらの表現は構成的かつ時間的に一貫性を持たなければならない。
既存のリカレント処理に基づくアプローチは、トレーニング目的が時間的一貫性を強制しないため、フレーム間の長期的な安定性を欠くことが多い。
本研究では、時間的一貫性を明確に促進するビデオオブジェクト中心モデルに対して、新しいオブジェクトレベルの時間的コントラスト損失を導入する。
提案手法は学習対象中心表現の時間的整合性を大幅に向上させ,教師なしオブジェクトの動的予測などの下流タスクに挑戦するための信頼性の高い映像分解を実現する。
さらに、我々の損失によって加わった帰納バイアスは、オブジェクト発見を強く改善し、合成と実世界の両方のデータセットに対する最先端の結果をもたらし、モーションマスクを付加的な手がかりとして活用する弱い監督方法よりも優れています。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Object-Centric Learning for Real-World Videos by Predicting Temporal
Feature Similarities [30.564704737585558]
本稿では,時間的特徴類似性損失の形で事前学習した特徴を利用する新しい方法を提案する。
この損失は、画像パッチ間の意味的および時間的相関を符号化し、オブジェクト発見のための動きバイアスを導入する自然な方法である。
この損失は、挑戦的な合成MOViデータセット上での最先端のパフォーマンスにつながることを実証する。
論文 参考訳(メタデータ) (2023-06-07T23:18:14Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。