論文の概要: ATSTrack: Enhancing Visual-Language Tracking by Aligning Temporal and Spatial Scales
- arxiv url: http://arxiv.org/abs/2507.00454v1
- Date: Tue, 01 Jul 2025 06:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.358378
- Title: ATSTrack: Enhancing Visual-Language Tracking by Aligning Temporal and Spatial Scales
- Title(参考訳): ATSTrack:時空間スケールの調整による視線追跡の強化
- Authors: Yihao Zhen, Qiang Wang, Yu Qiao, Liangqiong Qu, Huijie Fan,
- Abstract要約: そこで我々は,textbfAligning textbfTemporal and textbfSpatial scale of different input componentsを提案する。
具体的には,各言語記述を時間的および空間的対応に基づく異なる属性のフレーズに分解する。
我々は,前フレームから修正言語情報を含む視覚言語トークンを導入し,言語記述とより関連性の高い視覚的特徴を抽出する。
- 参考スコア(独自算出の注目度): 22.566493518002854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A main challenge of Visual-Language Tracking (VLT) is the misalignment between visual inputs and language descriptions caused by target movement. Previous trackers have explored many effective feature modification methods to preserve more aligned features. However, an important yet unexplored factor ultimately hinders their capability, which is the inherent differences in the temporal and spatial scale of information between visual and language inputs. To address this issue, we propose a novel visual-language tracker that enhances the effect of feature modification by \textbf{A}ligning \textbf{T}emporal and \textbf{S}patial scale of different input components, named as \textbf{ATSTrack}. Specifically, we decompose each language description into phrases with different attributes based on their temporal and spatial correspondence with visual inputs, and modify their features in a fine-grained manner. Moreover, we introduce a Visual-Language token that comprises modified linguistic information from the previous frame to guide the model to extract visual features that are more relevant to language description, thereby reducing the impact caused by the differences in spatial scale. Experimental results show that our proposed ATSTrack achieves performance comparable to existing methods. Our code will be released.
- Abstract(参考訳): VLT(Visual-Language Tracking)の主な課題は、視覚入力と目標運動による言語記述との相違である。
従来のトラッカーは、より整列した特徴を維持するために、多くの効果的な特徴修正方法を模索してきた。
しかし、重要な要因は究極的にはその能力を妨げるものであり、これは視覚と言語入力の間の時間的・空間的な情報のスケールに固有の違いである。
この問題に対処するため,新しいビジュアル・ランゲージ・トラッカーを提案する。このトラッカーは,異なる入力成分のテキストbf{A} 型とテキストbf{T} 型とテキストbf{S} 型を併用することで,特徴修正の効果を高める。
具体的には,各言語記述を時間的・空間的対応に基づく異なる属性のフレーズに分解し,その特徴をきめ細かな方法で修正する。
さらに,前フレームから修正言語情報を含む視覚言語トークンを導入し,言語記述に関連性の高い視覚的特徴を抽出し,空間スケールの違いによる影響を低減する。
実験の結果,提案したATSTrackは既存手法に匹敵する性能を示した。
私たちのコードは解放されます。
関連論文リスト
- CLDTracker: A Comprehensive Language Description for Visual Tracking [17.858934583542325]
我々は、堅牢な視覚追跡のための新しい包括的言語記述フレームワークであるCLDTrackerを提案する。
トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。
6つの標準VOTベンチマークの実験は、CLDTrackerがSOTAのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-29T17:39:30Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。