論文の概要: Towards General Multimodal Visual Tracking
- arxiv url: http://arxiv.org/abs/2503.11218v1
- Date: Fri, 14 Mar 2025 09:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:15.585866
- Title: Towards General Multimodal Visual Tracking
- Title(参考訳): 汎用マルチモーダルビジュアルトラッキングを目指して
- Authors: Andong Lu, Mai Wen, Jinhu Wang, Yuanzhi Guo, Chenglong Li, Jin Tang, Bin Luo,
- Abstract要約: RGB, 熱赤外, イベント, 言語など4つのモードの利点を利用して, 困難な状況下でのロバストなトラッキングを実現する。
我々は600の動画シーケンスからなる大規模で高品質なベンチマークであるQuadTrack600(384.7K高解像度(640x480))を構築した。
各フレーム群では、すべての4つのモードが空間的にアライメントされ、密接なアノテートされ、21のシーケンスレベルのチャレンジ属性が詳細な性能解析のために提供される。
- 参考スコア(独自算出の注目度): 18.997206723119948
- License:
- Abstract: Existing multimodal tracking studies focus on bi-modal scenarios such as RGB-Thermal, RGB-Event, and RGB-Language. Although promising tracking performance is achieved through leveraging complementary cues from different sources, it remains challenging in complex scenes due to the limitations of bi-modal scenarios. In this work, we introduce a general multimodal visual tracking task that fully exploits the advantages of four modalities, including RGB, thermal infrared, event, and language, for robust tracking under challenging conditions. To provide a comprehensive evaluation platform for general multimodal visual tracking, we construct QuadTrack600, a large-scale, high-quality benchmark comprising 600 video sequences (totaling 384.7K high-resolution (640x480) frame groups). In each frame group, all four modalities are spatially aligned and meticulously annotated with bounding boxes, while 21 sequence-level challenge attributes are provided for detailed performance analysis. Despite quad-modal data provides richer information, the differences in information quantity among modalities and the computational burden from four modalities are two challenging issues in fusing four modalities. To handle these issues, we propose a novel approach called QuadFusion, which incorporates an efficient Multiscale Fusion Mamba with four different scanning scales to achieve sufficient interactions of the four modalities while overcoming the exponential computational burden, for general multimodal visual tracking. Extensive experiments on the QuadTrack600 dataset and three bi-modal tracking datasets, including LasHeR, VisEvent, and TNL2K, validate the effectiveness of our QuadFusion.
- Abstract(参考訳): 既存のマルチモーダルトラッキング研究は、RGB-Thermal、RGB-Event、RGB-Languageといったバイモーダルシナリオに焦点を当てている。
異なるソースからの補完的なキューを活用することで、有望なトラッキング性能が達成されるが、バイモーダルシナリオの制限のため、複雑なシーンでは依然として困難である。
本稿では,RGB,熱赤外,イベント,言語など4つのモードの利点を,困難な条件下でのロバストなトラッキングに活用する汎用マルチモーダル視覚追跡タスクを提案する。
一般的なマルチモーダルな視覚追跡のための総合的な評価プラットフォームであるQuadTrack600は、600の動画シーケンス(384.7Kの高解像度(640x480)フレームグループ)からなる大規模で高品質なベンチマークである。
各フレーム群では、すべての4つのモードが空間的にアライメントされ、密接なアノテートされ、21のシーケンスレベルのチャレンジ属性が詳細な性能解析のために提供される。
クアッドモーダルデータはよりリッチな情報を提供するが、4つのモーダル間の情報量と4つのモーダルからの計算負担の差は、4つのモーダルを融合させる上で難しい2つの問題である。
これらの問題に対処するために,4つの異なるスケールの効率的なマルチスケール・フュージョン・マンバを組み込んだQuadFusionという新しい手法を提案する。
QuadTrack600データセットとLasHeR、VisEvent、TNL2Kを含む3つのバイモーダル追跡データセットに関する大規模な実験は、我々のQuadFusionの有効性を検証する。
関連論文リスト
- Visual Object Tracking across Diverse Data Modalities: A Review [33.006051781123595]
ビジュアルオブジェクト追跡(VOT)はコンピュータビジョンにおいて魅力的な重要な研究分野である。
まず, RGB, 熱赤外, 点雲追跡の3種類の主要な単一モードVOTについて検討した。
次に,RGB-Depth,RGB-Thermal,RGB-LiDAR,RGB-Languageの4種類のマルチモーダルVOTを要約する。
論文 参考訳(メタデータ) (2024-12-13T09:25:18Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Single Frame Semantic Segmentation Using Multi-Modal Spherical Images [0.0]
本稿では,マルチモーダル融合と全方向シーン認識のギャップを埋めるトランスフォーマーを用いたクロスモーダル融合アーキテクチャを提案する。
我々は、極端物体の変形とパノラマ歪みに対処するために歪み認識モジュールを用いる。
我々の技術は、Stanford2D3DS(RGB-HHA)60.60%、Structured3D(RGB-D-N)71.97%、Matterport3D(RGB-D)35.92%という最先端のmIoU性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T08:06:18Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Cross-Modal Object Tracking: Modality-Aware Representations and A
Unified Benchmark [8.932487291107812]
多くの視覚系では、視覚的トラッキングはしばしばRGB画像シーケンスに基づいており、一部のターゲットは低照度環境では無効である。
追従過程におけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識したターゲット表現を学習する新しいアルゴリズムを提案する。
無料の学術的利用のためにデータセットをリリースし、データセットのダウンロードリンクとコードを近くリリースします。
論文 参考訳(メタデータ) (2021-11-08T03:58:55Z) - Multi-modal Visual Tracking: Review and Experimental Comparison [85.20414397784937]
マルチモーダルトラッキングアルゴリズム,特に可視深度(RGB-D)と可視温度(RGB-T)を要約する。
5つのデータセット上でトラッカーの有効性を分析する実験を行った。
論文 参考訳(メタデータ) (2020-12-08T02:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。