論文の概要: Robust RGB-T Tracking via Learnable Visual Fourier Prompt Fine-tuning and Modality Fusion Prompt Generation
- arxiv url: http://arxiv.org/abs/2509.19733v1
- Date: Wed, 24 Sep 2025 03:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.679804
- Title: Robust RGB-T Tracking via Learnable Visual Fourier Prompt Fine-tuning and Modality Fusion Prompt Generation
- Title(参考訳): 学習可能なVisual Fourier PromptファインチューニングとModality Fusion Prompt生成によるロバストRGB-T追跡
- Authors: Hongtao Yang, Bineng Zhong, Qihua Liang, Zhiruo Zhu, Yaozong Zheng, Ning Li,
- Abstract要約: 高速フーリエ変換(FFT)を用いたモダリティ関連プロンプト学習のための効率的なビジュアルフーリエプロンプト追跡法を提案する。
提案手法は,共有パラメータを持つ対称特徴抽出エンコーダ,視覚的フーリエプロンプト,モダリティ融合プロンプトジェネレータから構成される。
3つのRGB-T追跡ベンチマークで行った実験から,本手法は優れた性能を示すことが示された。
- 参考スコア(独自算出の注目度): 32.437441219889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, visual prompt tuning is introduced to RGB-Thermal (RGB-T) tracking as a parameter-efficient finetuning (PEFT) method. However, these PEFT-based RGB-T tracking methods typically rely solely on spatial domain information as prompts for feature extraction. As a result, they often fail to achieve optimal performance by overlooking the crucial role of frequency-domain information in prompt learning. To address this issue, we propose an efficient Visual Fourier Prompt Tracking (named VFPTrack) method to learn modality-related prompts via Fast Fourier Transform (FFT). Our method consists of symmetric feature extraction encoder with shared parameters, visual fourier prompts, and Modality Fusion Prompt Generator that generates bidirectional interaction prompts through multi-modal feature fusion. Specifically, we first use a frozen feature extraction encoder to extract RGB and thermal infrared (TIR) modality features. Then, we combine the visual prompts in the spatial domain with the frequency domain prompts obtained from the FFT, which allows for the full extraction and understanding of modality features from different domain information. Finally, unlike previous fusion methods, the modality fusion prompt generation module we use combines features from different modalities to generate a fused modality prompt. This modality prompt is interacted with each individual modality to fully enable feature interaction across different modalities. Extensive experiments conducted on three popular RGB-T tracking benchmarks show that our method demonstrates outstanding performance.
- Abstract(参考訳): 近年,パラメータ効率の微調整(PEFT)手法としてRGB-Thermal(RGB-T)トラッキングにビジュアル・プロンプト・チューニングを導入している。
しかしながら、これらのPEFTベースのRGB-T追跡手法は、通常、特徴抽出のプロンプトとして空間領域情報のみに依存する。
その結果、素早い学習における周波数領域情報の重要な役割を見極めることで、最適なパフォーマンスを達成できないことがしばしばある。
この問題に対処するため,Fast Fourier Transform (FFT) を用いてモダリティ関連プロンプトを学習する,効率的なVisual Fourier Prompt Tracking (VFPTrack) 手法を提案する。
提案手法は,共有パラメータを持つ対称特徴抽出エンコーダ,視覚的フーリエプロンプト,マルチモーダル特徴融合による双方向相互作用プロンプトを生成するモダリティ融合プロンプトジェネレータから構成される。
具体的には、まず凍結した特徴抽出エンコーダを用いて、RGBおよび熱赤外(TIR)変調特性を抽出する。
次に、空間領域における視覚的プロンプトとFFTから得られる周波数領域プロンプトを組み合わせることで、異なる領域情報からモダリティ特徴の完全な抽出と理解を可能にする。
最後に、従来の融合法とは異なり、我々が使用するモダリティ融合プロンプト生成モジュールは、異なるモダリティの特徴を組み合わせることで、融合モダリティプロンプトを生成する。
このモダリティプロンプトは個々のモダリティと相互作用し、異なるモダリティ間の特徴的相互作用を完全に実現する。
3つのRGB-T追跡ベンチマークで行った大規模な実験により,本手法は優れた性能を示した。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。
既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。
本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:42:13Z) - Coordinate-Aware Thermal Infrared Tracking Via Natural Language Modeling [16.873697155916997]
NLMTrackは、座標対応の熱赤外追跡モデルである。
NLMTrackは、特徴抽出と特徴融合を統一するエンコーダを適用している。
実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-11T08:06:31Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion [4.963745612929956]
RGB-Tトラッキングの主な問題は、可視画像と熱画像のクロスモーダルな特徴の正当かつ最適なマージである。
CSTNetは、RGB-Tトラッキングにおけるクロスモーダルチャネルと空間的特徴の直接融合を実現することを目的としている。
CSTNetとCSTNet-smallはNvidia Jetson Xavierで21fpsと33fpsのリアルタイム速度を実現している。
論文 参考訳(メタデータ) (2024-05-06T05:58:49Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。