Fugu-MT 論文翻訳(概要): ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

論文の概要: ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

arxiv url: http://arxiv.org/abs/2603.05384v1
Date: Thu, 05 Mar 2026 17:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.334406
Title: ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking
Title（参考訳）: ORMOT:マルチオブジェクト追跡を一方向参照するためのデータセットとフレームワーク
Authors: Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao,
Abstract要約: マルチオブジェクト追跡(MOT)は、コンピュータビジョンにおける基本的なタスクであり、ビデオフレーム間でターゲットを追跡することを目的としている。我々は、RMOTを全方位画像に拡張するORMOT(Omnidirectional Referring Multi-Object Tracking)を提案する。 ORSetはOmnidirectional Referring Multi-Object Trackingデータセットで、27の多様な全方位シーン、848の言語記述、3,401の注釈付きオブジェクトを含む。
参考スコア（独自算出の注目度）: 39.56214494580301
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-Object Tracking (MOT) is a fundamental task in computer vision, aiming to track targets across video frames. Existing MOT methods perform well in general visual scenes, but face significant challenges and limitations when extended to visual-language settings. To bridge this gap, the task of Referring Multi-Object Tracking (RMOT) has recently been proposed, which aims to track objects that correspond to language descriptions. However, current RMOT methods are primarily developed on datasets captured by conventional cameras, which suffer from limited field of view. This constraint often causes targets to move out of the frame, leading to fragmented tracking and loss of contextual information. In this work, we propose a novel task, called Omnidirectional Referring Multi-Object Tracking (ORMOT), which extends RMOT to omnidirectional imagery, aiming to overcome the field-of-view (FoV) limitation of conventional datasets and improve the model's ability to understand long-horizon language descriptions. To advance the ORMOT task, we construct ORSet, an Omnidirectional Referring Multi-Object Tracking dataset, which contains 27 diverse omnidirectional scenes, 848 language descriptions, and 3,401 annotated objects, providing rich visual, temporal, and language information. Furthermore, we propose ORTrack, a Large Vision-Language Model (LVLM)-driven framework tailored for Omnidirectional Referring Multi-Object Tracking. Extensive experiments on the ORSet dataset demonstrate the effectiveness of our ORTrack framework. The dataset and code will be open-sourced at https://github.com/chen-si-jia/ORMOT.
Abstract（参考訳）: マルチオブジェクト追跡(MOT)は、コンピュータビジョンにおける基本的なタスクであり、ビデオフレーム間でターゲットを追跡することを目的としている。既存のMOTメソッドは、一般的な視覚シーンではうまく機能するが、視覚的な設定に拡張した場合、大きな課題や制限に直面している。このギャップを埋めるために、言語記述に対応するオブジェクトを追跡することを目的として、最近RMOT(Referring Multi-Object Tracking)タスクが提案されている。しかし、現在のRMOT法は主に、視野が限られている従来のカメラが捉えたデータセットに基づいて開発されている。この制約は、しばしばターゲットがフレームから移動し、断片化された追跡とコンテキスト情報の喪失につながる。本研究では,OROT(Omnidirectional Referring Multi-Object Tracking, Omnidirectional Referring Multi-Object Tracking, ORMOT)と呼ばれる新しいタスクを提案する。 ORMOTタスクを前進させるために,27の多様な全方位シーン,848の言語記述,3,401の注釈付きオブジェクトを含む全方位参照マルチオブジェクト追跡データセットであるORSetを構築した。さらに,一方向参照マルチオブジェクト追跡に適したLVLM(Large Vision-Language Model)駆動フレームワークであるORTrackを提案する。 ORSetデータセットに関する大規模な実験は、ORTrackフレームワークの有効性を実証しています。データセットとコードはhttps://github.com/chen-si-jia/ORMOT.comでオープンソース化される。

関連論文リスト

ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking [23.76697700853566]
我々はReaMOT(Reasoning-based Multi-Object Tracking)と呼ばれる新しいタスクを提案する。 ReaMOTはより困難なタスクであり、言語命令と推論特性と一致するオブジェクトを正確に推論し、オブジェクトの軌道を追跡する必要がある。 12のデータセット上に構築された推論に基づくマルチオブジェクト追跡ベンチマークであるReaMOT Challengeを構築した。
論文参考訳（メタデータ） (2025-05-26T17:55:19Z)
Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。 CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文参考訳（メタデータ） (2025-03-14T15:21:54Z)
MITracker: Multi-View Integration for Visual Object Tracking [15.713725317019321]
我々は,マルチビューオブジェクトを効率的に統合する新しいMVOT手法であるMulti-View Integration Tracker(MITracker)を開発した。 MITrackerは任意の視点から任意の長さのビデオフレーム内の任意のオブジェクトを追跡することができる。 MITrackerはMVTrackとGMTDデータセットの既存のメソッドを上回り、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-27T14:03:28Z)
Cross-View Referring Multi-Object Tracking [25.963714973838417]
Referring Multi-Object Tracking (RMOT)は、現在の追跡分野において重要なトピックである。 CRMOT(Cross-view Referring Multi-Object Tracking)と呼ばれる新しいタスクを提案する。複数のビューからオブジェクトの外観を得るためのクロスビューを導入し、RMOTタスクにおけるオブジェクトの見えない外観の問題を回避する。
論文参考訳（メタデータ） (2024-12-23T18:58:39Z)
OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文参考訳（メタデータ） (2023-04-17T16:20:05Z)
DIVOTrack: A Novel Dataset and Baseline Method for Cross-View Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文参考訳（メタデータ） (2023-02-15T14:10:42Z)
Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文参考訳（メタデータ） (2022-11-20T20:30:28Z)
End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文参考訳（メタデータ） (2022-10-26T10:19:37Z)
TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文参考訳（メタデータ） (2020-05-20T21:07:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。