Fugu-MT 論文翻訳(概要): eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking

論文の概要: eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking

arxiv url: http://arxiv.org/abs/2406.20024v3
Date: Mon, 04 Nov 2024 06:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.241713
Title: eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking
Title（参考訳）: eMoE-Tracker:ロバストイベント誘導オブジェクト追跡のための環境MoEベースのトランス
Authors: Yucheng Chen, Lin Wang,
Abstract要約: 本稿では,eMoE-Trackerと呼ばれる,トランスフォーマーに基づくイベント誘導トラッキングフレームワークを提案する。私たちのキーとなるアイデアは、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習することです。さまざまなイベントベースのベンチマークデータセットの実験は、従来の技術と比較して、eMoE-Trackerの優れたパフォーマンスを示しています。
参考スコア（独自算出の注目度）: 9.282504639411163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The unique complementarity of frame-based and event cameras for high frame rate object tracking has recently inspired some research attempts to develop multi-modal fusion approaches. However, these methods directly fuse both modalities and thus ignore the environmental attributes, e.g., motion blur, illumination variance, occlusion, scale variation, etc. Meanwhile, insufficient interaction between search and template features makes distinguishing target objects and backgrounds difficult. As a result, performance degradation is induced especially in challenging conditions. This paper proposes a novel and effective Transformer-based event-guided tracking framework, called eMoE-Tracker, which achieves new SOTA performance under various conditions. Our key idea is to disentangle the environment into several learnable attributes to dynamically learn the attribute-specific features and strengthen the target information by improving the interaction between the target template and search regions. To achieve the goal, we first propose an environmental Mix-of-Experts (eMoE) module that is built upon the environmental Attributes Disentanglement to learn attribute-specific features and environmental Attributes Assembling to assemble the attribute-specific features by the learnable attribute scores dynamically. The eMoE module is a subtle router that prompt-tunes the transformer backbone more efficiently. We then introduce a contrastive relation modeling (CRM) module to emphasize target information by leveraging a contrastive learning strategy between the target template and search regions. Extensive experiments on diverse event-based benchmark datasets showcase the superior performance of our eMoE-Tracker compared to the prior arts.
Abstract（参考訳）: 高フレームレートオブジェクト追跡のためのフレームベースおよびイベントカメラの特異な相補性は、最近、マルチモーダル融合手法の開発にいくつかの研究を刺激している。しかし、これらの手法は両モードを直接融合させ、例えば、動きのぼやけ、照明のばらつき、閉塞、スケールのばらつきなどの環境特性を無視する。一方、検索機能とテンプレート機能との相互作用が不十分なため、対象オブジェクトと背景の区別が困難になる。その結果、特に挑戦的な条件下では、性能劣化が引き起こされる。本稿では,トランスフォーマーを用いたイベント誘導トラッキングフレームワークeMoE-Trackerを提案する。我々のキーとなる考え方は、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習し、ターゲットテンプレートと検索領域間の相互作用を改善してターゲット情報を強化することである。この目的を達成するために,まず,環境属性と環境属性を動的に組み合わせて属性固有の特徴を学習するために,環境属性と環境属性を分離した環境ミックス・オブ・エグゼクティブ(eMoE)モジュールを提案する。 eMoEモジュールは、トランスのバックボーンをより効率的に調整する微妙なルータである。次に、ターゲットテンプレートと検索領域間の対照的な学習戦略を活用することにより、ターゲット情報を強調するためのコントラッシブ・リレーション・モデリング(CRM)モジュールを導入する。さまざまなイベントベースのベンチマークデータセットに関する大規模な実験は、従来の技術と比較して、eMoE-Trackerの優れたパフォーマンスを示しています。

関連論文リスト

AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
IMM-MOT: A Novel 3D Multi-object Tracking Framework with Interacting Multiple Model Filter [10.669576499007139]
3D Multi-Object Tracking (MOT) は周囲の物体の軌跡を提供する。トラッキング・バイ・ディテククションフレームワークに基づく既存の3D MOTメソッドは、通常、オブジェクトを追跡するために単一のモーションモデルを使用する。 IMM-MOTにおける干渉多重モデルフィルタを導入し、個々の物体の複雑な動きパターンを正確にマッチングする。
論文参考訳（メタデータ） (2025-02-13T01:55:32Z)
Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking [5.746443489229576]
キーフレーム抽出(KFE)モジュールは、強化学習を利用して動画を適応的にセグメントする。フレーム内フィーチャーフュージョン(IFF)モジュールは、ターゲットと周辺オブジェクト間の情報交換を容易にするために、グラフ畳み込みネットワーク(GCN)を使用する。提案したトラッカーはMOT17データセット上で印象的な結果が得られる。
論文参考訳（メタデータ） (2025-01-17T11:36:38Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文参考訳（メタデータ） (2024-09-17T14:34:18Z)
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。 CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文参考訳（メタデータ） (2024-07-31T08:42:48Z)
Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。 MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。 MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文参考訳（メタデータ） (2024-05-28T07:24:56Z)
DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。 4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文参考訳（メタデータ） (2024-03-01T07:03:27Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
Aligning Data Selection with Performance: Performance-driven Reinforcement Learning for Active Learning in Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。 MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文参考訳（メタデータ） (2023-10-12T14:59:22Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。