論文の概要: eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking
- arxiv url: http://arxiv.org/abs/2406.20024v3
- Date: Mon, 04 Nov 2024 06:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:38.876894
- Title: eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking
- Title(参考訳): eMoE-Tracker:ロバストイベント誘導オブジェクト追跡のための環境MoEベースのトランス
- Authors: Yucheng Chen, Lin Wang,
- Abstract要約: 本稿では,eMoE-Trackerと呼ばれる,トランスフォーマーに基づくイベント誘導トラッキングフレームワークを提案する。
私たちのキーとなるアイデアは、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習することです。
さまざまなイベントベースのベンチマークデータセットの実験は、従来の技術と比較して、eMoE-Trackerの優れたパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 9.282504639411163
- License:
- Abstract: The unique complementarity of frame-based and event cameras for high frame rate object tracking has recently inspired some research attempts to develop multi-modal fusion approaches. However, these methods directly fuse both modalities and thus ignore the environmental attributes, e.g., motion blur, illumination variance, occlusion, scale variation, etc. Meanwhile, insufficient interaction between search and template features makes distinguishing target objects and backgrounds difficult. As a result, performance degradation is induced especially in challenging conditions. This paper proposes a novel and effective Transformer-based event-guided tracking framework, called eMoE-Tracker, which achieves new SOTA performance under various conditions. Our key idea is to disentangle the environment into several learnable attributes to dynamically learn the attribute-specific features and strengthen the target information by improving the interaction between the target template and search regions. To achieve the goal, we first propose an environmental Mix-of-Experts (eMoE) module that is built upon the environmental Attributes Disentanglement to learn attribute-specific features and environmental Attributes Assembling to assemble the attribute-specific features by the learnable attribute scores dynamically. The eMoE module is a subtle router that prompt-tunes the transformer backbone more efficiently. We then introduce a contrastive relation modeling (CRM) module to emphasize target information by leveraging a contrastive learning strategy between the target template and search regions. Extensive experiments on diverse event-based benchmark datasets showcase the superior performance of our eMoE-Tracker compared to the prior arts.
- Abstract(参考訳): 高フレームレートオブジェクト追跡のためのフレームベースおよびイベントカメラの特異な相補性は、最近、マルチモーダル融合手法の開発にいくつかの研究を刺激している。
しかし、これらの手法は両モードを直接融合させ、例えば、動きのぼやけ、照明のばらつき、閉塞、スケールのばらつきなどの環境特性を無視する。
一方、検索機能とテンプレート機能との相互作用が不十分なため、対象オブジェクトと背景の区別が困難になる。
その結果、特に挑戦的な条件下では、性能劣化が引き起こされる。
本稿では,トランスフォーマーを用いたイベント誘導トラッキングフレームワークeMoE-Trackerを提案する。
我々のキーとなる考え方は、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習し、ターゲットテンプレートと検索領域間の相互作用を改善してターゲット情報を強化することである。
この目的を達成するために,まず,環境属性と環境属性を動的に組み合わせて属性固有の特徴を学習するために,環境属性と環境属性を分離した環境ミックス・オブ・エグゼクティブ(eMoE)モジュールを提案する。
eMoEモジュールは、トランスのバックボーンをより効率的に調整する微妙なルータである。
次に、ターゲットテンプレートと検索領域間の対照的な学習戦略を活用することにより、ターゲット情報を強調するためのコントラッシブ・リレーション・モデリング(CRM)モジュールを導入する。
さまざまなイベントベースのベンチマークデータセットに関する大規模な実験は、従来の技術と比較して、eMoE-Trackerの優れたパフォーマンスを示しています。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。
MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。
MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文 参考訳(メタデータ) (2024-05-28T07:24:56Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。