論文の概要: Modality-Guided Dynamic Graph Fusion and Temporal Diffusion for Self-Supervised RGB-T Tracking
- arxiv url: http://arxiv.org/abs/2505.03507v1
- Date: Tue, 06 May 2025 13:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.384099
- Title: Modality-Guided Dynamic Graph Fusion and Temporal Diffusion for Self-Supervised RGB-T Tracking
- Title(参考訳): 自己教師付きRGB-T追跡のためのモード誘導動的グラフ融合と時間拡散
- Authors: Shenglan Li, Rui Yao, Yong Zhou, Hancheng Zhu, Kunyang Sun, Bing Liu, Zhiwen Shao, Jiaqi Zhao,
- Abstract要約: 本稿では,自己教師付きRGB-Tトラッキングのための新しい手法であるGDSTrackを提案する。
GDSTrackは、隣接するフレームのモダリティを融合させ、それらを邪魔なノイズとして扱い、生成モデルの認知能力を活用する。
4つの公開RGB-T追跡データセットで実施された実験は、GDSTrackが既存の最先端手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 30.292364744578226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reduce the reliance on large-scale annotations, self-supervised RGB-T tracking approaches have garnered significant attention. However, the omission of the object region by erroneous pseudo-label or the introduction of background noise affects the efficiency of modality fusion, while pseudo-label noise triggered by similar object noise can further affect the tracking performance. In this paper, we propose GDSTrack, a novel approach that introduces dynamic graph fusion and temporal diffusion to address the above challenges in self-supervised RGB-T tracking. GDSTrack dynamically fuses the modalities of neighboring frames, treats them as distractor noise, and leverages the denoising capability of a generative model. Specifically, by constructing an adjacency matrix via an Adjacency Matrix Generator (AMG), the proposed Modality-guided Dynamic Graph Fusion (MDGF) module uses a dynamic adjacency matrix to guide graph attention, focusing on and fusing the object's coherent regions. Temporal Graph-Informed Diffusion (TGID) models MDGF features from neighboring frames as interference, and thus improving robustness against similar-object noise. Extensive experiments conducted on four public RGB-T tracking datasets demonstrate that GDSTrack outperforms the existing state-of-the-art methods. The source code is available at https://github.com/LiShenglana/GDSTrack.
- Abstract(参考訳): 大規模アノテーションへの依存を減らすため、自己教師付きRGB-Tトラッキングアプローチが注目されている。
しかし、擬似ラベルによるオブジェクト領域の省略やバックグラウンドノイズの導入は、類似のオブジェクトノイズによって引き起こされる擬似ラベルノイズが追従性能にさらに影響を及ぼす一方、モダリティ融合の効率に影響を及ぼす。
本稿では, 動的グラフ融合と時間拡散を導入し, 自己教師付きRGB-Tトラッキングにおける課題に対処するGDSTrackを提案する。
GDSTrackは、近隣のフレームのモダリティを動的に融合させ、それらを妨害ノイズとして扱い、生成モデルの認知能力を活用する。
具体的には、adjacency Matrix Generator (AMG) を介して隣接行列を構築することにより、提案したModality-Guided Dynamic Graph Fusion (MDGF) モジュールは、動的隣接行列を用いて、グラフの注意をガイドし、オブジェクトのコヒーレントな領域に集中し、融合する。
TGID(Temporal Graph-Informed Diffusion)モデルでは、隣接するフレームから干渉としてMDGFを特徴付ける。
4つの公開RGB-T追跡データセットで実施された大規模な実験は、GDSTrackが既存の最先端手法よりも優れていることを示した。
ソースコードはhttps://github.com/LiShenglana/GDSTrack.comで入手できる。
関連論文リスト
- RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation [71.2136732268131]
RGB-Thermal(RGBT)トラッキングは、多様な環境条件をまたいだ堅牢なオブジェクトローカライゼーションを実現することを目的としている。
既存のRGBTトラッカーは、ターゲットモデリングのための初期フレームの視覚情報のみに依存している。
堅牢なRGBTトラッキングのための新しい検索拡張フレームワークであるRAGTrackを提案する。
論文 参考訳(メタデータ) (2026-03-04T01:02:04Z) - Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - IGDMRec: Behavior Conditioned Item Graph Diffusion for Multimodal Recommendation [21.87097387902408]
マルチモーダルレコメンデーションシステム(MRS)は、様々なオンラインプラットフォームにおいて重要であり、マルチモーダル情報を取り入れたより正確なパーソナライズレコメンデーションを提供する。
本稿では, セマンティックな項目グラフを識別するために, 分類不要なガイダンス付き拡散モデルを利用する新しい手法IGDMRecを提案する。
4つの実世界のデータセットに対する大規模な実験は、IGDMRecが競合ベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2025-12-23T02:13:01Z) - CADTrack: Learning Contextual Aggregation with Deformable Alignment for Robust RGBT Tracking [68.71826342377004]
RGB-Thermal (RGBT) トラッキングは、堅牢な全天候物体追跡のために可視および熱赤外モードを活用することを目的としている。
既存のRGBTトラッカーはモダリティの相違を解決するのに苦労している。
RGBT追跡のためのCADTrackと呼ばれる,変形可能なアライメントによるコンテキストアグリゲーション(Contextual Aggregation)を提案する。
論文 参考訳(メタデータ) (2025-11-22T08:10:02Z) - A Hybrid Approach for Visual Multi-Object Tracking [3.259045978275386]
本稿では,非線形力学下での未知および時間変化対象数の整合性を確保するために,視覚的多対象追跡手法を提案する。
粒子フィルタは非線形力学と非ガウス雑音に対処し、粒子最適化(PSO)の支援により粒子を状態分布モードへ誘導する。
ターゲット状態のスムーズな更新と識別の保存のための新しいスキームが提案されている。
論文 参考訳(メタデータ) (2025-10-28T13:22:24Z) - Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios [76.02688769599686]
本稿では,AIRMVCと呼ばれるノイズデータの自動識別と修正のための新しいマルチビュークラスタリングフレームワークを提案する。
具体的には,GMMを用いて雑音識別を異常識別問題として再構成する。
次に,同定結果に基づいて,ノイズデータの悪影響を軽減するためのハイブリッド補正戦略を設計する。
論文 参考訳(メタデータ) (2025-05-27T16:16:54Z) - Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文 参考訳(メタデータ) (2024-12-20T09:10:17Z) - ConsistencyTrack: A Robust Multi-Object Tracker with a Generation Strategy of Consistency Model [20.259334882471574]
マルチオブジェクトトラッキング(MOT)は、コンピュータビジョンにおいて重要な技術であり、ビデオシーケンス内の複数のターゲットを検出し、各ターゲットにフレーム毎にユニークなIDを割り当てるように設計されている。
既存のMOTメソッドは、様々なシナリオでリアルタイムで複数のオブジェクトを正確に追跡する。
本稿では,境界ボックス上の拡散過程として検出と関連を定式化するための新しいConsistencyTrack, Joint Detection and Tracking (JDT) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:53:30Z) - DDN-SLAM: Real-time Dense Dynamic Neural Implicit SLAM [5.267859554944985]
DDN-SLAMは,意味的特徴を統合した最初のリアルタイム高密度ニューラルネットワーク暗黙的SLAMシステムである。
既存の暗黙的SLAMシステムと比較して、動的データセットの追跡結果は平均軌道誤差(ATE)の精度が平均90%向上していることを示している。
論文 参考訳(メタデータ) (2024-01-03T05:42:17Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。