論文の概要: COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking
- arxiv url: http://arxiv.org/abs/2504.01321v1
- Date: Wed, 02 Apr 2025 03:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:29.813789
- Title: COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking
- Title(参考訳): COST:視覚関連小物体追跡用コントラストワンステージ変圧器
- Authors: Chunhui Zhang, Li Liu, Jialin Gao, Xin Sun, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang,
- Abstract要約: 本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。
ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。
視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
- 参考スコア(独自算出の注目度): 52.62149024881728
- License:
- Abstract: Transformer has recently demonstrated great potential in improving vision-language (VL) tracking algorithms. However, most of the existing VL trackers rely on carefully designed mechanisms to perform the multi-stage multi-modal fusion. Additionally, direct multi-modal fusion without alignment ignores distribution discrepancy between modalities in feature space, potentially leading to suboptimal representations. In this work, we propose COST, a contrastive one-stage transformer fusion framework for VL tracking, aiming to learn semantically consistent and unified VL representations. Specifically, we introduce a contrastive alignment strategy that maximizes mutual information (MI) between a video and its corresponding language description. This enables effective cross-modal alignment, yielding semantically consistent features in the representation space. By leveraging a visual-linguistic transformer, we establish an efficient multi-modal fusion and reasoning mechanism, empirically demonstrating that a simple stack of transformer encoders effectively enables unified VL representations. Moreover, we contribute a newly collected VL tracking benchmark dataset for small object tracking, named VL-SOT500, with bounding boxes and language descriptions. Our dataset comprises two challenging subsets, VL-SOT230 and VL-SOT270, dedicated to evaluating generic and high-speed small object tracking, respectively. Small object tracking is notoriously challenging due to weak appearance and limited features, and this dataset is, to the best of our knowledge, the first to explore the usage of language cues to enhance visual representation for small object tracking. Extensive experiments demonstrate that COST achieves state-of-the-art performance on five existing VL tracking datasets, as well as on our proposed VL-SOT500 dataset. Source codes and dataset will be made publicly available.
- Abstract(参考訳): Transformerは最近、視覚言語(VL)追跡アルゴリズムを改善する大きな可能性を実証している。
しかし、既存のVLトラッカーのほとんどは、マルチステージマルチモーダル融合を実行するために慎重に設計されたメカニズムに依存している。
さらに、アライメントのない直接多重モーダル融合は、特徴空間におけるモダリティ間の分布の相違を無視し、潜在的に準最適表現につながる。
本研究では,VL追跡のためのコントラスト型一段変圧器融合フレームワークであるCOSTを提案し,意味論的に一貫した統一されたVL表現の学習を目的とした。
具体的には、ビデオとそれに対応する言語記述間の相互情報(MI)を最大化するコントラストアライメント戦略を導入する。
これにより、効果的なクロスモーダルアライメントが可能になり、表現空間において意味論的に一貫した特徴が得られる。
視覚言語変換器を活用することで、効率的なマルチモーダル融合と推論機構を確立し、単純なトランスフォーマーエンコーダのスタックがVL表現を効果的に実現できることを実証的に実証する。
さらに,VL-SOT500という名称の小さなオブジェクト追跡のための,新たに収集されたVL追跡ベンチマークデータセットに,バウンディングボックスと言語記述を用いたコントリビューションを行った。
我々のデータセットは、2つの挑戦的なサブセット、VL-SOT230とVL-SOT270で構成され、それぞれがジェネリックおよび高速な小物体追跡を評価する。
このデータセットは、私たちの知る限りでは、小さなオブジェクト追跡のための視覚的表現を強化するために、言語キューの使用法を初めて探求したものです。
大規模な実験により、COSTは既存の5つのVL追跡データセットと、提案したVL-SOT500データセットに対して、最先端のパフォーマンスを達成することが示された。
ソースコードとデータセットが公開されている。
関連論文リスト
- Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark [23.551036494221222]
VLT(Visual Language Tracking)は、視覚的モダリティのみに依存する制限を緩和することで、トラッキングを強化する。
現行のVLTベンチマークでは、トラッキング中の複数ラウンドのインタラクションは考慮されていない。
本稿では,VLTタスクにマルチラウンドインタラクションを導入した新しい,堅牢なベンチマークVLT-MIを提案する。
論文 参考訳(メタデータ) (2024-09-13T14:54:37Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。