論文の概要: Is Multiple Object Tracking a Matter of Specialization?
- arxiv url: http://arxiv.org/abs/2411.00553v1
- Date: Fri, 01 Nov 2024 13:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:08.464851
- Title: Is Multiple Object Tracking a Matter of Specialization?
- Title(参考訳): 複数物体追跡は特殊化の問題か?
- Authors: Gianluca Mancusi, Mattia Bernardi, Aniello Panariello, Angelo Porrello, Rita Cucchiara, Simone Calderara,
- Abstract要約: 不均一なシナリオでエンドツーエンドのトランスフォーマーベースのトラッカーをトレーニングすることは大きな課題となる。
紹介する。
シナリオ固有の追跡アーキテクチャ(PASTA)は、組み合わせた新しいフレームワークである。
効率的な微細チューニング(PEFT)とモジュール深層学習
- 参考スコア(独自算出の注目度): 33.59920084936913
- License:
- Abstract: End-to-end transformer-based trackers have achieved remarkable performance on most human-related datasets. However, training these trackers in heterogeneous scenarios poses significant challenges, including negative interference - where the model learns conflicting scene-specific parameters - and limited domain generalization, which often necessitates expensive fine-tuning to adapt the models to new domains. In response to these challenges, we introduce Parameter-efficient Scenario-specific Tracking Architecture (PASTA), a novel framework that combines Parameter-Efficient Fine-Tuning (PEFT) and Modular Deep Learning (MDL). Specifically, we define key scenario attributes (e.g, camera-viewpoint, lighting condition) and train specialized PEFT modules for each attribute. These expert modules are combined in parameter space, enabling systematic generalization to new domains without increasing inference time. Extensive experiments on MOTSynth, along with zero-shot evaluations on MOT17 and PersonPath22 demonstrate that a neural tracker built from carefully selected modules surpasses its monolithic counterpart. We release models and code.
- Abstract(参考訳): エンド・ツー・エンドのトランスフォーマーベースのトラッカーは、ほとんどの人間関連のデータセットで顕著なパフォーマンスを実現している。
しかし、これらのトラッカーを不均一なシナリオでトレーニングすることは、負の干渉(モデルがシーン固有のパラメータの矛盾を学習する)やドメインの一般化など、大きな課題を引き起こす。
これらの課題に対応するために,パラメータ効率の良いファインチューニング(PEFT)とMDL(Modular Deep Learning)を組み合わせた新しいフレームワークであるパラメータ効率シナリオ固有追跡アーキテクチャ(PASTA)を導入する。
具体的には、重要なシナリオ属性(例えば、カメラ視点、照明条件)を定義し、それぞれの属性に対して専用のPEFTモジュールを訓練する。
これらのエキスパートモジュールはパラメータ空間で結合され、推論時間を増やすことなく新しい領域への体系的な一般化を可能にする。
MOTSynthに関する大規模な実験と、MOT17とPersonPath22のゼロショット評価は、慎重に選択されたモジュールから構築されたニューラルトラッカーが、モノリシックなモジュールを上回ることを実証している。
モデルとコードをリリースします。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking [9.282504639411163]
本稿では,eMoE-Trackerと呼ばれる,トランスフォーマーに基づくイベント誘導トラッキングフレームワークを提案する。
私たちのキーとなるアイデアは、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習することです。
さまざまなイベントベースのベンチマークデータセットの実験は、従来の技術と比較して、eMoE-Trackerの優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2024-06-28T16:13:55Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - TIDE: Test Time Few Shot Object Detection [11.036762620105383]
Few-shot Object Detection (FSOD) は、対象ドメイン内の新しいカテゴリの限られたオブジェクトインスタンスから意味的知識を抽出することを目的としている。
FSODの最近の進歩は、メタ学習やデータ拡張を通じて、いくつかのオブジェクトに基づいてベースモデルを微調整することに焦点を当てている。
我々は、新しいFSODタスクを定式化し、TIDE(Test TIme Few Shot Detection)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-30T09:00:44Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Modular Multi Target Tracking Using LSTM Networks [0.0]
本稿では,センサ計測を用いた航空機目標追尾システムに対する自由端対端手法を提案する。
提案したモジュールブロックは、多数のトラッキングアプリケーションで独立して訓練および使用することができる。
論文 参考訳(メタデータ) (2020-11-16T15:58:49Z) - ePointDA: An End-to-End Simulation-to-Real Domain Adaptation Framework
for LiDAR Point Cloud Segmentation [111.56730703473411]
LiDARデータ上でディープニューラルネットワーク(DNN)をトレーニングするには、大規模なポイントワイドアノテーションが必要である。
シミュレーション・トゥ・リアル・ドメイン適応(SRDA)は、DNNを無制限の合成データと自動生成されたラベルで訓練する。
ePointDAは、自己教師付きドロップアウトノイズレンダリング、統計不変および空間適応型特徴アライメント、転送可能なセグメンテーション学習の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2020-09-07T23:46:08Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。