論文の概要: Benchmarking Unsupervised Object Representations for Video Sequences
- arxiv url: http://arxiv.org/abs/2006.07034v2
- Date: Tue, 29 Jun 2021 07:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 04:17:49.391116
- Title: Benchmarking Unsupervised Object Representations for Video Sequences
- Title(参考訳): ビデオシーケンスのための教師なしオブジェクト表現のベンチマーク
- Authors: Marissa A. Weis, Kashyap Chitta, Yash Sharma, Wieland Brendel,
Matthias Bethge, Andreas Geiger and Alexander S. Ecker
- Abstract要約: ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
- 参考スコア(独自算出の注目度): 111.81492107649889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceiving the world in terms of objects and tracking them through time is a
crucial prerequisite for reasoning and scene understanding. Recently, several
methods have been proposed for unsupervised learning of object-centric
representations. However, since these models were evaluated on different
downstream tasks, it remains unclear how they compare in terms of basic
perceptual abilities such as detection, figure-ground segmentation and tracking
of objects. To close this gap, we design a benchmark with four data sets of
varying complexity and seven additional test sets featuring challenging
tracking scenarios relevant for natural videos. Using this benchmark, we
compare the perceptual abilities of four object-centric approaches: ViMON, a
video-extension of MONet, based on recurrent spatial attention, OP3, which
exploits clustering via spatial mixture models, as well as TBA and SCALOR,
which use explicit factorization via spatial transformers. Our results suggest
that the architectures with unconstrained latent representations learn more
powerful representations in terms of object detection, segmentation and
tracking than the spatial transformer based architectures. We also observe that
none of the methods are able to gracefully handle the most challenging tracking
scenarios despite their synthetic nature, suggesting that our benchmark may
provide fruitful guidance towards learning more robust object-centric video
representations.
- Abstract(参考訳): オブジェクトの観点から世界を知覚し、時間を通して追跡することは、推論とシーン理解にとって重要な前提条件である。
近年,オブジェクト中心表現の教師なし学習法が提案されている。
しかし、これらのモデルが異なる下流のタスクで評価されているため、検出、図形分割、オブジェクトの追跡といった基本的な知覚能力の観点から比較するのは難しい。
このギャップを埋めるために,我々は,複雑性の異なる4つのデータセットと,自然ビデオに関連する追跡シナリオに挑戦する7つのテストセットを備えたベンチマークを設計した。
このベンチマークを用いて,再帰的空間的注意に基づくmonetの映像拡張であるvimon,空間的混合モデルによるクラスタリングを利用するop3,空間的トランスフォーマによる明示的因子化を利用するtbaとscalorの4つのオブジェクト中心アプローチの知覚能力を比較した。
その結果,制約のない潜在表現を持つアーキテクチャは,空間的トランスフォーマーに基づくアーキテクチャよりも,物体検出やセグメンテーション,追跡といった観点でより強力な表現を学習できることが示唆された。
また,どの手法も,その合成性にも拘わらず,最も困難なトラッキングシナリオを優雅に扱えることはなく,我々のベンチマークは,より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供する可能性があることを示唆している。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Tracking through Containers and Occluders in the Wild [32.86030395660071]
重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。
我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Visual Object Recognition in Indoor Environments Using Topologically
Persistent Features [2.2344764434954256]
見えない屋内環境における物体認識は、移動ロボットの視覚的認識にとって難しい問題である。
本稿では,この課題に対処するために,オブジェクトの形状情報に依存するトポロジカルに永続的な特徴を用いることを提案する。
提案手法を実世界のロボットに実装し,その有用性を実証する。
論文 参考訳(メタデータ) (2020-10-07T06:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。