論文の概要: Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation
- arxiv url: http://arxiv.org/abs/2410.13437v1
- Date: Thu, 17 Oct 2024 11:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:41.065220
- Title: Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation
- Title(参考訳): マルチオブジェクト追跡とセグメンテーションの参照のための時間拡張マルチモーダルトランス
- Authors: Changcheng Xiao, Qiong Cao, Yujie Zhong, Xiang Zhang, Tao Wang, Canqun Yang, Long Lan,
- Abstract要約: Referring Multi-object Tracking (RMOT)は、ビデオ中の任意の数の対象物を見つけることを目的とした、新たなクロスモーダルタスクである。
本稿では, Transformer アーキテクチャの利点を活用するために TenRMOT と呼ばれる小型トランスフォーマー方式を提案する。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
- 参考スコア(独自算出の注目度): 28.16053631036079
- License:
- Abstract: Referring multi-object tracking (RMOT) is an emerging cross-modal task that aims to locate an arbitrary number of target objects and maintain their identities referred by a language expression in a video. This intricate task involves the reasoning of linguistic and visual modalities, along with the temporal association of target objects. However, the seminal work employs only loose feature fusion and overlooks the utilization of long-term information on tracked objects. In this study, we introduce a compact Transformer-based method, termed TenRMOT. We conduct feature fusion at both encoding and decoding stages to fully exploit the advantages of Transformer architecture. Specifically, we incrementally perform cross-modal fusion layer-by-layer during the encoding phase. In the decoding phase, we utilize language-guided queries to probe memory features for accurate prediction of the desired objects. Moreover, we introduce a query update module that explicitly leverages temporal prior information of the tracked objects to enhance the consistency of their trajectories. In addition, we introduce a novel task called Referring Multi-Object Tracking and Segmentation (RMOTS) and construct a new dataset named Ref-KITTI Segmentation. Our dataset consists of 18 videos with 818 expressions, and each expression averages 10.7 masks, which poses a greater challenge compared to the typical single mask in most existing referring video segmentation datasets. TenRMOT demonstrates superior performance on both the referring multi-object tracking and the segmentation tasks.
- Abstract(参考訳): Referring Multi-object Tracking (RMOT)は、任意の数の対象物を特定し、ビデオで言語表現によって参照されるアイデンティティを維持することを目的とした、新たなクロスモーダルタスクである。
この複雑なタスクには、言語的・視覚的なモダリティの推論と、対象対象物の時間的関連が含まれます。
しかし、基礎研究はゆるやかな特徴融合のみを使用し、追跡対象の長期的情報の利用を見落としている。
本研究では,TenRMOTと呼ばれる小型トランスフォーマー方式を提案する。
我々はTransformerアーキテクチャの利点をフル活用するために,エンコーディングとデコードの両方で機能融合を行う。
具体的には、エンコーディングフェーズ中にクロスモーダル・フュージョン・レイヤ・バイ・レイヤを段階的に実行します。
復号段階では,言語誘導クエリを用いてメモリの特徴を探索し,所望のオブジェクトの正確な予測を行う。
さらに、追跡対象の時間的事前情報を明示的に活用し、トラジェクトリの整合性を高めるクエリ更新モジュールを導入する。
さらに、RMOTS(Referring Multi-Object Tracking and Segmentation)と呼ばれる新しいタスクを導入し、Ref-KITTI Segmentationという新しいデータセットを構築した。
我々のデータセットは818の表現を持つ18のビデオで構成されており、各表現の平均は10.7マスクであり、既存の参照ビデオセグメンテーションデータセットの典型的なシングルマスクよりも大きな課題となる。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
関連論文リスト
- MLS-Track: Multilevel Semantic Interaction in RMOT [31.153018571396206]
本論文では,Unreal Engine 5をベースとした高品質で低コストなデータ生成手法を提案する。
我々は新しいベンチマークデータセット、Refer-UE-Cityを構築し、主に交差点監視ビデオのシーンを含む。
また、MLS-Trackと呼ばれるマルチレベル意味誘導型多目的フレームワークを提案し、モデルとテキスト間の相互作用を層単位で強化する。
論文 参考訳(メタデータ) (2024-04-18T09:31:03Z) - DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Spatio-Temporal Multi-Task Learning Transformer for Joint Moving Object
Detection and Segmentation [0.0]
本稿では,トランスフォーマーをベースとしたマルチタスク学習アーキテクチャを提案する。
我々は、初期共有エンコーダと後期共有エンコーダデコーダトランスの両方を用いて、個別タスクアーキテクチャとMLLセットアップの性能を評価する。
論文 参考訳(メタデータ) (2021-06-21T20:30:44Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。