論文の概要: Tracking through Containers and Occluders in the Wild
- arxiv url: http://arxiv.org/abs/2305.03052v1
- Date: Thu, 4 May 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:20:43.113861
- Title: Tracking through Containers and Occluders in the Wild
- Title(参考訳): 野生における容器・咬合器の追跡
- Authors: Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
- Abstract要約: 重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。
我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
- 参考スコア(独自算出の注目度): 32.86030395660071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking objects with persistence in cluttered and dynamic environments
remains a difficult challenge for computer vision systems. In this paper, we
introduce $\textbf{TCOW}$, a new benchmark and model for visual tracking
through heavy occlusion and containment. We set up a task where the goal is to,
given a video sequence, segment both the projected extent of the target object,
as well as the surrounding container or occluder whenever one exists. To study
this task, we create a mixture of synthetic and annotated real datasets to
support both supervised learning and structured evaluation of model performance
under various forms of task variation, such as moving or nested containment. We
evaluate two recent transformer-based video models and find that while they can
be surprisingly capable of tracking targets under certain settings of task
variation, there remains a considerable performance gap before we can claim a
tracking model to have acquired a true notion of object permanence.
- Abstract(参考訳): 乱雑でダイナミックな環境でオブジェクトを追跡することは、コンピュータビジョンシステムにとって難しい課題である。
本稿では,重閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$\textbf{TCOW}$を紹介する。
我々は,映像シーケンスを前提として,対象物の投影範囲と周囲のコンテナやオクルーダの両方を分割するタスクを設定した。
この課題を研究するために,教師付き学習とモデル性能の構造化評価の両方をサポートするために,合成データセットと注釈付き実データセットの混合を作成した。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得する前には,かなりの性能差が残っていることを発見した。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Out of Sight, Still in Mind: Reasoning and Planning about Unobserved Objects with Video Tracking Enabled Memory Models [11.126673648719345]
オブジェクト指向メモリを多目的操作推論フレームワークに符号化する問題について検討する。
部分ビュー点雲のトラジェクトリの履歴を符号化するためにトランスフォーマダイナミクスを利用するLOOMを提案する。
提案手法は,新規なオブジェクトの出現を排除した推論や,オブジェクトの再出現など,複数のタスクを実行できる。
論文 参考訳(メタデータ) (2023-09-26T21:31:24Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric
Models [30.313085784715575]
学習対象時間表現に基づくトランスフォーマーに基づく自己回帰モデルであるSlotFormerを紹介する。
本稿では,複雑なオブジェクト相互作用を持つデータセットの予測にSlotFormerをうまく適用する。
また,このようなタスクに特化して設計された手法と競合する,モデルベース計画の世界モデルとして機能する能力を示す。
論文 参考訳(メタデータ) (2022-10-12T01:53:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。