論文の概要: RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network
- arxiv url: http://arxiv.org/abs/2504.17595v1
- Date: Thu, 24 Apr 2025 14:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.405387
- Title: RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network
- Title(参考訳): 階層的モダリティアグリゲーションと分散ネットワークによるRGB-D追跡
- Authors: Boyue Xu, Yi Xu, Ruichao Hou, Jia Bei, Tongwei Ren, Gangshan Wu,
- Abstract要約: 本稿では,RGBの特徴表現強度と深度変調を利用した新しいネットワークHMADを提案する。
様々なRGB-Dデータセットによる結果は、HMADが最先端のパフォーマンスを達成することを示す。
実世界の実験は、リアルタイムシナリオにおける追跡課題のスペクトルを効果的に処理するHMADの能力をさらに検証する。
- 参考スコア(独自算出の注目度): 39.11936527918949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of dual-modal features has been pivotal in advancing RGB-Depth (RGB-D) tracking. However, current trackers are less efficient and focus solely on single-level features, resulting in weaker robustness in fusion and slower speeds that fail to meet the demands of real-world applications. In this paper, we introduce a novel network, denoted as HMAD (Hierarchical Modality Aggregation and Distribution), which addresses these challenges. HMAD leverages the distinct feature representation strengths of RGB and depth modalities, giving prominence to a hierarchical approach for feature distribution and fusion, thereby enhancing the robustness of RGB-D tracking. Experimental results on various RGB-D datasets demonstrate that HMAD achieves state-of-the-art performance. Moreover, real-world experiments further validate HMAD's capacity to effectively handle a spectrum of tracking challenges in real-time scenarios.
- Abstract(参考訳): デュアルモーダル機能の統合は、RGB-D(RGB-D)トラッキングの進展において重要な役割を担っている。
しかし、現在のトラッカーは効率が低く、シングルレベル機能のみに焦点が当てられているため、融合の堅牢性が弱くなり、現実のアプリケーションの要求に応えられない速度が遅くなる。
本稿では,これらの課題に対処するHMAD(Hierarchical Modality Aggregation and Distribution)と呼ばれる新しいネットワークを提案する。
HMADはRGBと深さ変調の異なる特徴表現強度を活用し、特徴分布と融合の階層的アプローチに優位性を与え、RGB-D追跡の堅牢性を高める。
各種RGB-Dデータセットによる実験結果から,HMADが最先端の性能を発揮することが示された。
さらに、実世界の実験は、リアルタイムシナリオにおける追跡課題のスペクトルを効果的に処理するHMADの能力をさらに検証する。
関連論文リスト
- KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection [35.52055285209549]
そこで本研究では,RGB-T SODタスクの視覚的基礎モデルの可能性を明らかにする。
具体的には,RGB-T SODのSegment Anything Model 2 (SAM2) を拡張した。
また、RGBデータへの依存を減らし、一般化を改善するために、相互排他的なランダムマスキング戦略を導入する。
論文 参考訳(メタデータ) (2025-04-08T10:07:02Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - RGB-T Object Detection via Group Shuffled Multi-receptive Attention and Multi-modal Supervision [40.483141519450996]
可視光(RGB)と熱赤外(T)の両方を利用したマルチスペクトル物体検出は注目されている。
本稿では,マルチスケールRGBと熱的特徴を抽出し,組み合わせるために,非常に単純なグループシャッフル型多受容意識(GSMA)モジュールを提案する。
抽出したマルチモーダル特徴は, マルチレベルパスアグリゲーションネックと直接統合され, 融合効果と効率が著しく向上する。
論文 参考訳(メタデータ) (2024-05-29T10:11:36Z) - Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency
Detection [10.589062261564631]
RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。
既存の手法では、クロスモーダルの特徴を無視し、RGBと熱的特徴を融合させるネットワーク構造のみに依存している。
まず、教師付きおよび自己教師付き損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
論文 参考訳(メタデータ) (2023-09-13T20:47:29Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。