論文の概要: Unsupervised Spatio-temporal Latent Feature Clustering for
Multiple-object Tracking and Segmentation
- arxiv url: http://arxiv.org/abs/2007.07175v3
- Date: Fri, 5 Nov 2021 02:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:59:17.679334
- Title: Unsupervised Spatio-temporal Latent Feature Clustering for
Multiple-object Tracking and Segmentation
- Title(参考訳): 複数物体追跡とセグメンテーションのための教師なし時空間特徴クラスタリング
- Authors: Abubakar Siddique, Reza Jalil Mozhdehi, and Henry Medeiros
- Abstract要約: 本稿では,時間的識別タスクを異種時間的クラスタリング問題として扱う戦略を提案する。
我々は、畳み込みと完全に接続されたオートエンコーダを用いて、セグメンテーションマスクと検出バウンディングボックスから識別特徴を学習する。
以上の結果から,本手法はいくつかの最先端手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.5591659577198183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assigning consistent temporal identifiers to multiple moving objects in a
video sequence is a challenging problem. A solution to that problem would have
immediate ramifications in multiple object tracking and segmentation problems.
We propose a strategy that treats the temporal identification task as a
spatio-temporal clustering problem. We propose an unsupervised learning
approach using a convolutional and fully connected autoencoder, which we call
deep heterogeneous autoencoder, to learn discriminative features from
segmentation masks and detection bounding boxes. We extract masks and their
corresponding bounding boxes from a pretrained instance segmentation network
and train the autoencoders jointly using task-dependent uncertainty weights to
generate common latent features. We then construct constraints graphs that
encourage associations among objects that satisfy a set of known temporal
conditions. The feature vectors and the constraints graphs are then provided to
the kmeans clustering algorithm to separate the corresponding data points in
the latent space. We evaluate the performance of our method using challenging
synthetic and real-world multiple-object video datasets. Our results show that
our technique outperforms several state-of-the-art methods.
- Abstract(参考訳): ビデオシーケンス内の複数の移動物体に一貫した時間識別子を割り当てることは難しい問題である。
この問題に対する解決策は、複数のオブジェクト追跡とセグメンテーション問題に即時に分岐する。
本稿では,時間同定タスクを時空間クラスタリング問題として扱う戦略を提案する。
本研究では,完全連結型畳み込みオートエンコーダを用いた教師なし学習手法を提案する。
事前訓練されたインスタンスセグメンテーションネットワークからマスクとその境界ボックスを抽出し、タスク依存の不確実性重みを使って自動エンコーダを訓練し、共通の潜在機能を生成する。
次に、既知の時間条件の集合を満たすオブジェクト間の関連性を促進する制約グラフを構築する。
その後、特徴ベクトルと制約グラフはkmeansクラスタリングアルゴリズムに提供され、潜在空間内の対応するデータポイントを分離する。
本手法は合成および実世界の多目的映像データセットを用いて性能評価を行う。
その結果,本手法は最先端手法よりも優れていることがわかった。
関連論文リスト
- Let-It-Flow: Simultaneous Optimization of 3D Flow and Object Clustering [2.763111962660262]
実大規模原点雲列からの自己監督型3次元シーンフロー推定の問題点について検討する。
重なり合うソフトクラスタと非重なり合う固いクラスタを組み合わせられる新しいクラスタリング手法を提案する。
本手法は,複数の独立移動物体が互いに近接する複雑な動的シーンにおける流れの解消に優れる。
論文 参考訳(メタデータ) (2024-04-12T10:04:03Z) - Learning a Fast 3D Spectral Approach to Object Segmentation and Tracking
over Space and Time [21.130594354306815]
時間と空間のスペクトルグラフクラスタリングとしてビデオオブジェクトセグメンテーションを用いる。
スペクトル解を近似するための3次元フィルタリングに基づく新しい,効率的な手法を提案する。
我々は、セグメンテーションタスクを超えて、オブジェクトトラッキングの領域にアプローチの定式化を拡大する。
論文 参考訳(メタデータ) (2022-12-15T18:59:07Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Robust Instance Segmentation through Reasoning about Multi-Object
Occlusion [9.536947328412198]
本稿では,隠蔽に頑健な多目的インスタンスセグメンテーションのためのディープネットワークを提案する。
私たちの研究は、神経機能アクティベーションの生成モデルを学習し、オクローダの発見に役立てています。
特に、オブジェクトクラスとそのインスタンスおよびオクルーダーセグメンテーションのフィードフォワード予測を得る。
論文 参考訳(メタデータ) (2020-12-03T17:41:55Z) - Video Anomaly Detection by Estimating Likelihood of Representations [21.879366166261228]
ビデオ異常は、モーション表現、オブジェクトのローカライゼーション、アクション認識など、多くのサブタスクを解決するため、困難なタスクである。
伝統的に、この課題に対する解決策は、これらの特徴の空間的接続を無視しながら、ビデオフレームとその低次元特徴のマッピングに焦点を当ててきた。
最近のソリューションでは、K-Meansのようなハードクラスタリング技術を用いてこれらの空間的接続を分析することや、潜伏した特徴を一般的な理解にマップするためにニューラルネットワークを適用することに焦点を当てている。
潜在特徴空間における映像異常を解決するために,このタスクを密度推定問題に転送するための深い確率モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T19:16:22Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。