論文の概要: ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2505.20381v1
- Date: Mon, 26 May 2025 17:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.219151
- Title: ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking
- Title(参考訳): ReaMOT: 推論に基づくマルチオブジェクト追跡のためのベンチマークとフレームワーク
- Authors: Sijia Chen, Yanqiu Yu, En Yu, Wenbing Tao,
- Abstract要約: 我々はReaMOT(Reasoning-based Multi-Object Tracking)と呼ばれる新しいタスクを提案する。
ReaMOTはより困難なタスクであり、言語命令と推論特性と一致するオブジェクトを正確に推論し、オブジェクトの軌道を追跡する必要がある。
12のデータセット上に構築された推論に基づくマルチオブジェクト追跡ベンチマークであるReaMOT Challengeを構築した。
- 参考スコア(独自算出の注目度): 23.76697700853566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Multi-object tracking (RMOT) is an important research field in computer vision. Its task form is to guide the models to track the objects that conform to the language instruction. However, the RMOT task commonly requires clear language instructions, such methods often fail to work when complex language instructions with reasoning characteristics appear. In this work, we propose a new task, called Reasoning-based Multi-Object Tracking (ReaMOT). ReaMOT is a more challenging task that requires accurate reasoning about objects that match the language instruction with reasoning characteristic and tracking the objects' trajectories. To advance the ReaMOT task and evaluate the reasoning capabilities of tracking models, we construct ReaMOT Challenge, a reasoning-based multi-object tracking benchmark built upon 12 datasets. Specifically, it comprises 1,156 language instructions with reasoning characteristic, 423,359 image-language pairs, and 869 diverse scenes, which is divided into three levels of reasoning difficulty. In addition, we propose a set of evaluation metrics tailored for the ReaMOT task. Furthermore, we propose ReaTrack, a training-free framework for reasoning-based multi-object tracking based on large vision-language models (LVLM) and SAM2, as a baseline for the ReaMOT task. Extensive experiments on the ReaMOT Challenge benchmark demonstrate the effectiveness of our ReaTrack framework.
- Abstract(参考訳): Referring Multi-object Tracking (RMOT) はコンピュータビジョンにおいて重要な研究分野である。
そのタスク形式は、言語命令に準拠したオブジェクトを追跡するためにモデルを導くことである。
しかし、RMOTタスクは通常、明確な言語命令を必要とするため、推論特性を持つ複雑な言語命令が現れると、そのようなメソッドは動作しないことが多い。
本研究では,Reasoning-based Multi-Object Tracking (ReaMOT) と呼ばれる新しいタスクを提案する。
ReaMOTはより困難なタスクであり、言語命令と推論特性と一致するオブジェクトを正確に推論し、オブジェクトの軌道を追跡する必要がある。
ReaMOTタスクを前進させ、追跡モデルの推論能力を評価するために、12データセット上に構築された推論に基づくマルチオブジェクト追跡ベンチマークであるReaMOT Challengeを構築した。
具体的には、推論特性を持つ1,156の言語命令、423,359のイメージ言語対、869の多様なシーンで構成され、推論の難易度に3つのレベルに分けられる。
また,ReaMOTタスクに適した評価指標のセットを提案する。
さらに,ReaMOTタスクのベースラインとして,大規模視覚言語モデル(LVLM)とSAM2に基づく推論に基づく多対象追跡のためのトレーニングフリーフレームワークReaTrackを提案する。
ReaMOT Challengeベンチマークに関する大規模な実験は、我々のReaTrackフレームワークの有効性を実証している。
関連論文リスト
- LaMOT: Language-Guided Multi-Object Tracking [13.866428951384124]
Vision-Language MOTは、人間の言語コマンドに基づいてオブジェクトを追跡することを目的としている。
様々な努力にもかかわらず、重要な課題は、なぜ言語が追跡に使用されるのかを明確に理解していないことである。
本稿では,Language-Guided MOT(Language-Guided MOT)と,それに対応する大規模ベンチマークであるLaMOTを紹介する。
論文 参考訳(メタデータ) (2024-06-12T15:24:09Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented
Dialogue with Symbolic Scene Representation [2.4469484645516837]
SimpleMTODは、シーケンス予測タスクとしてマルチモーダルタスク指向対話でいくつかのサブタスクをリキャストする。
シーン内のオブジェクトに対して、ローカルトークンと非ローカライズトークンの両方を導入します。
このモデルは、分類ヘッドのようなタスク固有のアーキテクチャ変更に依存しない。
論文 参考訳(メタデータ) (2023-07-10T21:16:46Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Multi-target tracking for video surveillance using deep affinity
network: a brief review [0.0]
ビデオ監視のためのマルチターゲットトラッキング(MTT)は、重要かつ困難なタスクの1つである。
深層学習モデルは人間の脳のように機能することが知られている。
論文 参考訳(メタデータ) (2021-10-29T10:44:26Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。