論文の概要: X Modality Assisting RGBT Object Tracking
- arxiv url: http://arxiv.org/abs/2312.17273v2
- Date: Mon, 24 Feb 2025 15:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:57.074653
- Title: X Modality Assisting RGBT Object Tracking
- Title(参考訳): RGBTオブジェクト追跡を支援するXモダリティ
- Authors: Zhaisheng Ding, Haiyan Li, Ruichao Hou, Yanyu Liu, Shidong Xie,
- Abstract要約: X Modality Assisting Network (X-Net)を導入し、視覚オブジェクト追跡を3つの異なるレベルに分離することで、融合パラダイムの影響を探る。
X-Netは、正確なレートと成功率の平均で0.47%/1.2%のパフォーマンス向上を達成する。
- 参考スコア(独自算出の注目度): 1.730147049648545
- License:
- Abstract: Developing robust multi-modal feature representations is crucial for enhancing object tracking performance. In pursuit of this objective, a novel X Modality Assisting Network (X-Net) is introduced, which explores the impact of the fusion paradigm by decoupling visual object tracking into three distinct levels, thereby facilitating subsequent processing. Initially, to overcome the challenges associated with feature learning due to significant discrepancies between RGB and thermal modalities, a plug-and-play pixel-level generation module (PGM) based on knowledge distillation learning is proposed. This module effectively generates the X modality, bridging the gap between the two patterns while minimizing noise interference. Subsequently, to optimize sample feature representation and promote cross-modal interactions, a feature-level interaction module (FIM) is introduced, integrating a mixed feature interaction transformer and a spatial dimensional feature translation strategy. Finally, to address random drifting caused by missing instance features, a flexible online optimization strategy called the decision-level refinement module (DRM) is proposed, which incorporates optical flow and refinement mechanisms. The efficacy of X-Net is validated through experiments on three benchmarks, demonstrating its superiority over state-of-the-art trackers. Notably, X-Net achieves performance gains of 0.47%/1.2% in the average of precise rate and success rate, respectively. Additionally, the research content, data, and code are pledged to be made publicly accessible at https://github.com/DZSYUNNAN/XNet.
- Abstract(参考訳): 堅牢なマルチモーダル特徴表現の開発は、オブジェクト追跡性能の向上に不可欠である。
この目的を追求するために、視覚オブジェクト追跡を3つの異なるレベルに分離し、その後の処理を容易にすることで、融合パラダイムの影響を探求する新しいX-Modality Assisting Network(X-Net)が導入された。
当初,RGBと熱モダリティの相違による特徴学習に関わる課題を克服するために,知識蒸留学習に基づくプラグアンドプレイピクセルレベルの生成モジュール(PGM)を提案する。
このモジュールはXモーダリティを効果的に生成し、ノイズ干渉を最小限に抑えながら2つのパターン間のギャップを埋める。
その後、サンプル特徴表現を最適化し、クロスモーダル相互作用を促進するために、混合特徴量相互作用変換器と空間次元特徴量変換戦略を統合した特徴量レベル相互作用モジュール(FIM)を導入する。
最後に、インスタンス機能不足によるランダムなドリフトに対処するため、光学フローと精細化機構を組み込んだDRM(Decision-level refinement Module)と呼ばれるフレキシブルなオンライン最適化戦略を提案する。
X-Netの有効性は3つのベンチマークの実験を通じて検証され、最先端のトラッカーよりも優れていることを示した。
特に、X-Netは、それぞれ正確なレートと成功率の平均で0.47%/1.2%のパフォーマンス向上を達成する。
さらに、研究内容、データ、コードはhttps://github.com/DZSYUNNAN/XNet.comで公開されている。
関連論文リスト
- Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-26T05:09:57Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - An Efficient End-to-End Transformer with Progressive Tri-modal Attention
for Multi-modal Emotion Recognition [27.96711773593048]
本稿では,マルチモーダル・エンド・ツー・エンド・トランス (ME2ET) を提案する。
低レベルにおいては、2パス戦略を採用することで、3モーダルな特徴相互作用をモデル化できるプログレッシブ・トリモーダル・アテンションを提案する。
高いレベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
論文 参考訳(メタデータ) (2022-09-20T14:51:38Z) - Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection [2.9153096940947796]
本稿では,2つのモードの情報の有効性を評価するために,GRNet(GRNet)を提案する。
知覚エンコーダを用いてマルチレベル単一モード特徴を抽出する。
無効な情報を抑制し、有効なモーダル特徴を復号ミキサとハイブリッド分岐復号器に転送するために、モーダル適応ゲートユニットを提案する。
論文 参考訳(メタデータ) (2021-08-13T15:08:21Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。