論文の概要: Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2303.03366v1
- Date: Mon, 6 Mar 2023 18:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 14:52:59.679821
- Title: Referring Multi-Object Tracking
- Title(参考訳): マルチオブジェクト追跡の参照
- Authors: Dongming Wu, Wencheng Han, Tiancai Wang, Xingping Dong, Xiangyu Zhang,
Jianbing Shen
- Abstract要約: 本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
- 参考スコア(独自算出の注目度): 78.63827591797124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing referring understanding tasks tend to involve the detection of a
single text-referred object. In this paper, we propose a new and general
referring understanding task, termed referring multi-object tracking (RMOT).
Its core idea is to employ a language expression as a semantic cue to guide the
prediction of multi-object tracking. To the best of our knowledge, it is the
first work to achieve an arbitrary number of referent object predictions in
videos. To push forward RMOT, we construct one benchmark with scalable
expressions based on KITTI, named Refer-KITTI. Specifically, it provides 18
videos with 818 expressions, and each expression in a video is annotated with
an average of 10.7 objects. Further, we develop a transformer-based
architecture TransRMOT to tackle the new task in an online manner, which
achieves impressive detection performance and outperforms other counterparts.
- Abstract(参考訳): 既存の参照理解タスクは、単一のテキスト参照オブジェクトの検出を伴う傾向がある。
本稿では,マルチオブジェクトトラッキング(rmot)と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その核となる考え方は、言語表現を意味的手がかりとして、マルチオブジェクト追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するための最初の作業である。
RMOT を推し進めるため,KITTI をベースとした拡張性のあるベンチマークである Refer-KITTI を構築した。
具体的には、18のビデオを818の表現で提供し、ビデオ内の各表現は平均10.7のオブジェクトでアノテートされる。
さらに,変換器をベースとしたTransRMOTアーキテクチャを開発し,新たなタスクをオンライン的に処理し,優れた検出性能を実現し,他のタスクよりも優れることを示す。
関連論文リスト
- Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation [28.16053631036079]
Referring Multi-object Tracking (RMOT)は、ビデオ中の任意の数の対象物を見つけることを目的とした、新たなクロスモーダルタスクである。
本稿では, Transformer アーキテクチャの利点を活用するために TenRMOT と呼ばれる小型トランスフォーマー方式を提案する。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-17T11:07:05Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Bootstrapping Referring Multi-Object Tracking [14.46285727127232]
マルチオブジェクト追跡(RMOT)の参照は、自然言語表現で表される人間の指示に従って複数のオブジェクトを検出し、追跡することを目的としている。
我々のキーとなる考え方は、差別的な言語単語を導入することで、多目的追跡のタスクをブートストラップすることである。
論文 参考訳(メタデータ) (2024-06-07T16:02:10Z) - DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - Type-to-Track: Retrieve Any Object via Prompt-based Tracking [34.859061177766016]
本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-22T21:25:27Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。