論文の概要: Object-Centric Learning for Real-World Videos by Predicting Temporal
Feature Similarities
- arxiv url: http://arxiv.org/abs/2306.04829v2
- Date: Fri, 8 Dec 2023 13:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:50:47.557864
- Title: Object-Centric Learning for Real-World Videos by Predicting Temporal
Feature Similarities
- Title(参考訳): 時間的特徴の類似性予測による実世界ビデオの物体中心学習
- Authors: Andrii Zadaianchuk and Maximilian Seitzer and Georg Martius
- Abstract要約: 本稿では,時間的特徴類似性損失の形で事前学習した特徴を利用する新しい方法を提案する。
この損失は、画像パッチ間の意味的および時間的相関を符号化し、オブジェクト発見のための動きバイアスを導入する自然な方法である。
この損失は、挑戦的な合成MOViデータセット上での最先端のパフォーマンスにつながることを実証する。
- 参考スコア(独自算出の注目度): 30.564704737585558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video-based object-centric learning is a promising avenue to
learn structured representations from large, unlabeled video collections, but
previous approaches have only managed to scale to real-world datasets in
restricted domains. Recently, it was shown that the reconstruction of
pre-trained self-supervised features leads to object-centric representations on
unconstrained real-world image datasets. Building on this approach, we propose
a novel way to use such pre-trained features in the form of a temporal feature
similarity loss. This loss encodes semantic and temporal correlations between
image patches and is a natural way to introduce a motion bias for object
discovery. We demonstrate that this loss leads to state-of-the-art performance
on the challenging synthetic MOVi datasets. When used in combination with the
feature reconstruction loss, our model is the first object-centric video model
that scales to unconstrained video datasets such as YouTube-VIS.
- Abstract(参考訳): 教師なしのビデオベースのオブジェクト中心学習は、大きなラベルのないビデオコレクションから構造化された表現を学ぶ有望な方法だが、以前のアプローチは制限されたドメインの現実世界のデータセットにしか拡張できなかった。
近年,事前学習した自己教師付き特徴の再構成は,制約のない実世界の画像データセットにオブジェクト中心の表現をもたらすことが示されている。
本稿では,このような事前学習した特徴を時間的特徴類似性損失の形で利用する方法を提案する。
この損失はイメージパッチ間の意味的および時間的相関をエンコードし、オブジェクト発見に動きバイアスを導入する自然な方法である。
この損失が、挑戦的な合成moviデータセットにおける最先端のパフォーマンスをもたらすことを実証する。
特徴再構成損失と組み合わせて使用すると、YouTube-VISのような制約のないビデオデータセットにスケールする最初のオブジェクト中心のビデオモデルとなる。
関連論文リスト
- Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。
生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。
通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T16:51:11Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Object-centric and memory-guided normality reconstruction for video
anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。
異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。
我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文 参考訳(メタデータ) (2022-03-07T19:28:39Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。