論文の概要: MEX: Memory-efficient Approach to Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2502.13875v1
- Date: Wed, 19 Feb 2025 16:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:18.163862
- Title: MEX: Memory-efficient Approach to Referring Multi-Object Tracking
- Title(参考訳): MEX:マルチオブジェクト追跡の参照に対するメモリ効率のアプローチ
- Authors: Huu-Thien Tran, Phuoc-Sang Pham, Thai-Son Tran, Khoa Luu,
- Abstract要約: メモリ効率のよいクロスモダリティ(MEX)と呼ばれる実用的なモジュールを紹介します。
このメモリ効率の手法は、iKUNのような市販のトラッカーに直接適用することができる。
提案手法は,メモリ4GBの単一GPU上での推論において有効であることを示す。
- 参考スコア(独自算出の注目度): 7.414903984067945
- License:
- Abstract: Referring Multi-Object Tracking (RMOT) is a relatively new concept that has rapidly gained traction as a promising research direction at the intersection of computer vision and natural language processing. Unlike traditional multi-object tracking, RMOT identifies and tracks objects and incorporates textual descriptions for object class names, making the approach more intuitive. Various techniques have been proposed to address this challenging problem; however, most require the training of the entire network due to their end-to-end nature. Among these methods, iKUN has emerged as a particularly promising solution. Therefore, we further explore its pipeline and enhance its performance. In this paper, we introduce a practical module dubbed Memory-Efficient Cross-modality -- MEX. This memory-efficient technique can be directly applied to off-the-shelf trackers like iKUN, resulting in significant architectural improvements. Our method proves effective during inference on a single GPU with 4 GB of memory. Among the various benchmarks, the Refer-KITTI dataset, which offers diverse autonomous driving scenes with relevant language expressions, is particularly useful for studying this problem. Empirically, our method demonstrates effectiveness and efficiency regarding HOTA tracking scores, substantially improving memory allocation and processing speed.
- Abstract(参考訳): Referring Multi-Object Tracking (RMOT) は比較的新しい概念であり、コンピュータビジョンと自然言語処理の交差点における有望な研究方向として急速に注目を集めている。
従来のマルチオブジェクトトラッキングとは異なり、RMOTはオブジェクトを特定し、追跡し、オブジェクトクラス名に関するテキスト記述を組み込んで、アプローチをより直感的にする。
この課題に対処するために、様々なテクニックが提案されているが、ほとんどの場合、エンドツーエンドの性質のため、ネットワーク全体のトレーニングが必要である。
これらの方法の中で、iKUNは特に有望なソリューションとして現れている。
そこで我々は,パイプラインをさらに探究し,性能を向上する。
本稿では,メモリ効率の良いクロスモダリティ(MEX)と呼ばれる実用モジュールを紹介する。
このメモリ効率のよいテクニックは、iKUNのような市販のトラッカーに直接適用することができ、アーキテクチャ上の大幅な改善をもたらす。
提案手法は,メモリ4GBの単一GPU上での推論において有効であることを示す。
様々なベンチマークの中で、関連する言語表現を含む多様な自律走行シーンを提供するRefer-KITTIデータセットは、この問題の研究に特に有用である。
実験により,HOTAトラッキングスコアの有効性と効率を実証し,メモリ割り当てと処理速度を大幅に改善した。
関連論文リスト
- Multi-object Tracking by Detection and Query: an efficient end-to-end manner [23.926668750263488]
従来の検出によるトラッキングと、クエリによる新たなトラッキングだ。
本稿では,学習可能なアソシエータによって達成されるトラッキング・バイ・検出・クエリーのパラダイムを提案する。
トラッキング・バイ・クエリーモデルと比較すると、LAIDは特に訓練効率の高い競合追跡精度を達成している。
論文 参考訳(メタデータ) (2024-11-09T14:38:08Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Efficient automated U-Net based tree crown delineation using UAV
multi-spectral imagery on embedded devices [2.7393821783237184]
ガイドラインのアプローチは、農業、環境、自然災害のモニタリングなど、様々な領域に重要な利益をもたらす。
ディープラーニングはコンピュータビジョンを変革し、機械翻訳を劇的に改善した。
マルチスペクトル画像を用いて効果的にトレーニングするU-Netベースツリーデライン化手法を提案するが,その上で単一スペクトル画像のデライン化を行うことができる。
論文 参考訳(メタデータ) (2021-07-16T11:17:36Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。