論文の概要: Adaptive Perception for Unified Visual Multi-modal Object Tracking
- arxiv url: http://arxiv.org/abs/2502.06583v1
- Date: Mon, 10 Feb 2025 15:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:31:33.215302
- Title: Adaptive Perception for Unified Visual Multi-modal Object Tracking
- Title(参考訳): 視覚的マルチモーダル物体追跡のための適応認識
- Authors: Xiantao Hu, Bineng Zhong, Qihua Liang, Zhiyi Mo, Liangtao Shi, Ying Tai, Jian Yang,
- Abstract要約: APTrackは、マルチモーダル適応認識のために設計された新しい統合トラッカーである。
従来の方法とは異なり、APTrackは等価なモデリング戦略を通じて統一された表現を模索している。
我々のトラッカーは適応的なモーダリティ相互作用モジュールを統合し、モーダリティ間の相互作用を効率的にブリッジする。
- 参考スコア(独自算出の注目度): 35.80808788962743
- License:
- Abstract: Recently, many multi-modal trackers prioritize RGB as the dominant modality, treating other modalities as auxiliary, and fine-tuning separately various multi-modal tasks. This imbalance in modality dependence limits the ability of methods to dynamically utilize complementary information from each modality in complex scenarios, making it challenging to fully perceive the advantages of multi-modal. As a result, a unified parameter model often underperforms in various multi-modal tracking tasks. To address this issue, we propose APTrack, a novel unified tracker designed for multi-modal adaptive perception. Unlike previous methods, APTrack explores a unified representation through an equal modeling strategy. This strategy allows the model to dynamically adapt to various modalities and tasks without requiring additional fine-tuning between different tasks. Moreover, our tracker integrates an adaptive modality interaction (AMI) module that efficiently bridges cross-modality interactions by generating learnable tokens. Experiments conducted on five diverse multi-modal datasets (RGBT234, LasHeR, VisEvent, DepthTrack, and VOT-RGBD2022) demonstrate that APTrack not only surpasses existing state-of-the-art unified multi-modal trackers but also outperforms trackers designed for specific multi-modal tasks.
- Abstract(参考訳): 近年、多くのマルチモーダルトラッカーがRGBを支配的モダリティとして優先順位付けし、他のモダリティを補助的として扱い、個別に様々なマルチモーダルタスクを微調整している。
このモダリティ依存の不均衡は、複雑なシナリオにおける各モダリティからの相補的な情報を動的に活用する手法の能力を制限し、マルチモーダルの利点を完全に知覚することは困難である。
結果として、統一パラメータモデルは、様々なマルチモーダル追跡タスクにおいて、しばしば過小評価される。
この問題に対処するために,マルチモーダル適応認識のための新しい統合トラッカーであるAPTrackを提案する。
従来の方法とは異なり、APTrackは等価なモデリング戦略を通じて統一された表現を模索している。
この戦略により、モデルは異なるタスク間の微調整を必要とせず、様々なモダリティやタスクに動的に適応することができる。
さらに,学習可能なトークンを生成することで,モダリティ間相互作用を効率的にブリッジするアダプティブ・モダリティ・インタラクション(AMI)モジュールを統合する。
5つの多様なマルチモーダルデータセット(RGBT234、LasHeR、VisEvent、DepthTrack、VOT-RGBD2022)で実施された実験は、APTrackが既存の最先端のマルチモーダルトラッカーを超えるだけでなく、特定のマルチモーダルタスクのために設計されたトラッカーよりも優れていることを示した。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。
このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。
提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T03:04:21Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。