論文の概要: Iterative Knowledge Exchange Between Deep Learning and Space-Time
Spectral Clustering for Unsupervised Segmentation in Videos
- arxiv url: http://arxiv.org/abs/2012.07123v1
- Date: Sun, 13 Dec 2020 18:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:42:29.230864
- Title: Iterative Knowledge Exchange Between Deep Learning and Space-Time
Spectral Clustering for Unsupervised Segmentation in Videos
- Title(参考訳): ビデオの教師なしセグメンテーションにおけるディープラーニングと時空スペクトルクラスタリングの反復的知識交換
- Authors: Emanuela Haller, Adina Magda Florea and Marius Leordeanu
- Abstract要約: 映像における非監視物体分割のためのデュアルシステムを提案する。
最初のモジュールは、ビデオ内のオブジェクトを発見する時空グラフです。
第2のモジュールは、強力なオブジェクト機能を学ぶディープネットワークである。
- 参考スコア(独自算出の注目度): 17.47403549514259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a dual system for unsupervised object segmentation in video, which
brings together two modules with complementary properties: a space-time graph
that discovers objects in videos and a deep network that learns powerful object
features. The system uses an iterative knowledge exchange policy. A novel
spectral space-time clustering process on the graph produces unsupervised
segmentation masks passed to the network as pseudo-labels. The net learns to
segment in single frames what the graph discovers in video and passes back to
the graph strong image-level features that improve its node-level features in
the next iteration. Knowledge is exchanged for several cycles until
convergence. The graph has one node per each video pixel, but the object
discovery is fast. It uses a novel power iteration algorithm computing the main
space-time cluster as the principal eigenvector of a special Feature-Motion
matrix without actually computing the matrix. The thorough experimental
analysis validates our theoretical claims and proves the effectiveness of the
cyclical knowledge exchange. We also perform experiments on the supervised
scenario, incorporating features pretrained with human supervision. We achieve
state-of-the-art level on unsupervised and supervised scenarios on four
challenging datasets: DAVIS, SegTrack, YouTube-Objects, and DAVSOD.
- Abstract(参考訳): 本稿では,ビデオ中のオブジェクトを検出する時空間グラフと,強力なオブジェクト特徴を学習する深層ネットワークという,相補的な特性を持つ2つのモジュールを結合した教師なしオブジェクトセグメンテーションのためのデュアルシステムを提案する。
システムは反復的な知識交換ポリシーを使用する。
グラフ上の新しいスペクトル時空クラスタリングプロセスは、疑似ラベルとしてネットワークに渡される教師なしセグメンテーションマスクを生成する。
ネットは、グラフがビデオで発見するものを単一のフレームに分割し、グラフの強力なイメージレベル機能に戻り、次のイテレーションでノードレベルの機能を改善する。
知識は収束するまでいくつかのサイクルで交換される。
グラフは各ビデオピクセルごとにひとつのノードを持つが、オブジェクトの発見は高速である。
これは、メインの時空クラスタを、マトリックスを実際に計算することなく、特別な特徴移動行列の主固有ベクトルとして計算する、新しいパワーイテレーションアルゴリズムを使用する。
徹底的な実験分析により理論的な主張が検証され,循環的知識交換の有効性が証明された。
また,人間の監督下で事前訓練された特徴を取り入れ,教師付きシナリオの実験を行った。
DAVIS、SegTrack、YouTube-Objects、DAVSODの4つの挑戦的なデータセット上で、教師なしシナリオと教師なしシナリオの最先端レベルを達成する。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Learning a Fast 3D Spectral Approach to Object Segmentation and Tracking
over Space and Time [21.130594354306815]
時間と空間のスペクトルグラフクラスタリングとしてビデオオブジェクトセグメンテーションを用いる。
スペクトル解を近似するための3次元フィルタリングに基づく新しい,効率的な手法を提案する。
我々は、セグメンテーションタスクを超えて、オブジェクトトラッキングの領域にアプローチの定式化を拡大する。
論文 参考訳(メタデータ) (2022-12-15T18:59:07Z) - Multi-Granularity Graph Pooling for Video-based Person Re-Identification [14.943835935921296]
ビデオサンプルの時間的特徴と空間的特徴を集約するためにグラフニューラルネットワーク(GNN)が導入された。
STGCNのような既存のグラフベースのモデルは、グラフ表現を得るためにノード機能でtextitmean/textitmaxプールを実行する。
ビデオ検索のための多粒度グラフ表現を学習するためのグラフプーリングネットワーク(GPNet)を提案する。
論文 参考訳(メタデータ) (2022-09-23T13:26:05Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Self-supervised Learning System for Object Detection in Videos Using
Random Walks on Graphs [20.369646864364547]
本稿では,画像中の対象の新規かつ未確認なカテゴリを検出するための,自己教師型学習システムを提案する。
提案システムは,様々なオブジェクトを含むシーンの未ラベル映像を入力として受信する。
ビデオのフレームは深度情報を使ってオブジェクトに分割され、各ビデオに沿ってセグメントが追跡される。
論文 参考訳(メタデータ) (2020-11-10T23:37:40Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。