論文の概要: A Self-supervised Learning System for Object Detection in Videos Using
Random Walks on Graphs
- arxiv url: http://arxiv.org/abs/2011.05459v3
- Date: Tue, 24 Aug 2021 07:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 08:06:22.975029
- Title: A Self-supervised Learning System for Object Detection in Videos Using
Random Walks on Graphs
- Title(参考訳): ランダムウォークを用いたビデオ中の物体検出のための自己教師型学習システム
- Authors: Juntao Tan, Changkyu Song, Abdeslam Boularias
- Abstract要約: 本稿では,画像中の対象の新規かつ未確認なカテゴリを検出するための,自己教師型学習システムを提案する。
提案システムは,様々なオブジェクトを含むシーンの未ラベル映像を入力として受信する。
ビデオのフレームは深度情報を使ってオブジェクトに分割され、各ビデオに沿ってセグメントが追跡される。
- 参考スコア(独自算出の注目度): 20.369646864364547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new self-supervised system for learning to detect novel
and previously unseen categories of objects in images. The proposed system
receives as input several unlabeled videos of scenes containing various
objects. The frames of the videos are segmented into objects using depth
information, and the segments are tracked along each video. The system then
constructs a weighted graph that connects sequences based on the similarities
between the objects that they contain. The similarity between two sequences of
objects is measured by using generic visual features, after automatically
re-arranging the frames in the two sequences to align the viewpoints of the
objects. The graph is used to sample triplets of similar and dissimilar
examples by performing random walks. The triplet examples are finally used to
train a siamese neural network that projects the generic visual features into a
low-dimensional manifold. Experiments on three public datasets, YCB-Video,
CORe50 and RGBD-Object, show that the projected low-dimensional features
improve the accuracy of clustering unknown objects into novel categories, and
outperform several recent unsupervised clustering techniques.
- Abstract(参考訳): 本稿では,画像中の物体の新規かつ未発見のカテゴリを検出するための学習用自己教師付きシステムを提案する。
提案システムは,様々なオブジェクトを含むシーンの未ラベル映像を入力として受信する。
ビデオのフレームは深度情報を使ってオブジェクトに分割され、各ビデオに沿ってセグメントが追跡される。
その後、システムは重み付きグラフを構築し、それらを含むオブジェクト間の類似性に基づいてシーケンスを接続する。
オブジェクトの2つのシーケンス間の類似性は、オブジェクトの視点を整列するために2つのシーケンス内のフレームを自動的に並べ替えた後、一般的な視覚的特徴を用いて測定される。
このグラフは、ランダムウォークを実行することによって、類似の異なる例のトリプレットをサンプリングするために使用される。
三重項の例は最終的に、汎用的な視覚特徴を低次元多様体に投影するシアムニューラルネットワークのトレーニングに使用される。
YCB-Video、CORe50、RGBD-Objectの3つの公開データセットの実験は、予測された低次元特徴が未知のオブジェクトを新しいカテゴリにクラスタリングする精度を改善し、最近の非教師なしクラスタリング技術より優れていることを示している。
関連論文リスト
- UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - Self-Supervised Learning of Object Segmentation from Unlabeled RGB-D
Videos [11.40098981859033]
本研究では,RGB画像中の剛体物体をセグメント化するための自己教師型学習システムを提案する。
提案するパイプラインは、静的オブジェクトのラベル付けされていないRGB-Dビデオに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-04-09T23:13:39Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Iterative Knowledge Exchange Between Deep Learning and Space-Time
Spectral Clustering for Unsupervised Segmentation in Videos [17.47403549514259]
映像における非監視物体分割のためのデュアルシステムを提案する。
最初のモジュールは、ビデオ内のオブジェクトを発見する時空グラフです。
第2のモジュールは、強力なオブジェクト機能を学ぶディープネットワークである。
論文 参考訳(メタデータ) (2020-12-13T18:36:18Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features [14.115782214599015]
ワンショットオブジェクト検出は、単一のデモによって定義されたオブジェクトを検出することで構成される。
ローカライズと認識を共同で行うワンステージシステムを構築している。
いくつかの挑戦的領域に対する実験的評価は,本手法が未知のクラスを検出できることを示唆している。
論文 参考訳(メタデータ) (2020-03-15T11:39:47Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。