論文の概要: Breaking Shallow Limits: Task-Driven Pixel Fusion for Gap-free RGBT Tracking
- arxiv url: http://arxiv.org/abs/2503.11247v1
- Date: Fri, 14 Mar 2025 09:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:13.539403
- Title: Breaking Shallow Limits: Task-Driven Pixel Fusion for Gap-free RGBT Tracking
- Title(参考訳): Breaking Shallow Limits: Gap-free RGBT Trackingのためのタスク駆動型Pixel Fusion
- Authors: Andong Lu, Yuanzhi Guo, Wanyu Wang, Chenglong Li, Jin Tang, Bin Luo,
- Abstract要約: 現在のRGBT追跡法は、融合位置がモダリティギャップの緩和に与える影響をしばしば見落としている。
我々はtextbfTPF という新しい textbfTask 駆動の textbfPixel レベルの textbfFusion ネットワークを提案する。
特に,Mambaの線形複雑度を利用して,リアルタイムかつ低レイテンシなRGBTトラッキングを実現する軽量なPixelレベルのFusion Adapter(PFA)を設計する。
- 参考スコア(独自算出の注目度): 21.18680957184296
- License:
- Abstract: Current RGBT tracking methods often overlook the impact of fusion location on mitigating modality gap, which is key factor to effective tracking. Our analysis reveals that shallower fusion yields smaller distribution gap. However, the limited discriminative power of shallow networks hard to distinguish task-relevant information from noise, limiting the potential of pixel-level fusion. To break shallow limits, we propose a novel \textbf{T}ask-driven \textbf{P}ixel-level \textbf{F}usion network, named \textbf{TPF}, which unveils the power of pixel-level fusion in RGBT tracking through a progressive learning framework. In particular, we design a lightweight Pixel-level Fusion Adapter (PFA) that exploits Mamba's linear complexity to ensure real-time, low-latency RGBT tracking. To enhance the fusion capabilities of the PFA, our task-driven progressive learning framework first utilizes adaptive multi-expert distillation to inherits fusion knowledge from state-of-the-art image fusion models, establishing robust initialization, and then employs a decoupled representation learning scheme to achieve task-relevant information fusion. Moreover, to overcome appearance variations between the initial template and search frames, we presents a nearest-neighbor dynamic template updating scheme, which selects the most reliable frame closest to the current search frame as the dynamic template. Extensive experiments demonstrate that TPF significantly outperforms existing most of advanced trackers on four public RGBT tracking datasets. The code will be released upon acceptance.
- Abstract(参考訳): 現在のRGBT追跡法は、効果的追跡の鍵となるモダリティギャップの緩和に対する核融合位置の影響をしばしば見落としている。
解析により, より浅い核融合は分布ギャップを小さくすることが明らかとなった。
しかし、浅層ネットワークの識別能力の制限は、タスク関連情報をノイズと区別しにくく、ピクセルレベルの融合の可能性を制限する。
そこで本研究では,RGBT追跡における画素レベルの融合のパワーを,プログレッシブ・ラーニング・フレームワークを通じて明らかにする,新しい \textbf{T}ask-driven \textbf{P}ixel-level \textbf{F}usion ネットワークである \textbf{TPF} を提案する。
特に,Mambaの線形複雑性を利用して,リアルタイムかつ低レイテンシなRGBTトラッキングを実現する軽量なPixelレベルフュージョンアダプタ(PFA)を設計する。
PFAの融合能力を高めるために,我々のタスク駆動型プログレッシブラーニングフレームワークは,まず適応型マルチエキスパート蒸留を用いて最先端画像融合モデルから融合知識を継承し,堅牢な初期化を確立し,タスク関連情報融合を実現するために分離された表現学習方式を用いる。
さらに、初期テンプレートと検索フレームの外観変化を克服するために、現在検索フレームに最も近い信頼性の高いフレームを動的テンプレートとして選択する、最寄りの動的テンプレート更新方式を提案する。
大規模な実験により、TPFは4つのパブリックなRGBT追跡データセットにおいて、既存の高度なトラッカーのほとんどを著しく上回っていることが示された。
コードは受理時にリリースされます。
関連論文リスト
- Multi-Scale Cross-Fusion and Edge-Supervision Network for Image Splicing Localization [13.776343759641343]
ISLのためのマルチスケールクロスフュージョンおよびエッジスーパービジョンネットワークを提案する。
本フレームワークは, クロスフュージョン, エッジマスク予測, エッジスーパービジョンローカライゼーションの3つの重要なステップで構成されている。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T03:10:04Z) - GraFT: Gradual Fusion Transformer for Multimodal Re-Identification [0.8999666725996975]
マルチモーダル ReID のための textbf Gradual Fusion Transformer (GraFT) を導入する。
GraFTは学習可能な融合トークンを使用し、エンコーダ間で自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を順応的にキャプチャする。
これらの拡張を広範囲にわたるアブレーション研究を通じて実証し、GraFTが確立されたマルチモーダルReIDベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-25T00:15:40Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Exploring Fusion Strategies for Accurate RGBT Visual Object Tracking [1.015785232738621]
ビデオにおけるマルチモーダル物体追跡の問題に対処する。
可視光(RGB)および熱赤外(TIR)変調によって伝達される相補的情報を融合する様々な選択肢について検討する。
論文 参考訳(メタデータ) (2022-01-21T12:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。