論文の概要: Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2502.11168v1
- Date: Sun, 16 Feb 2025 15:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:16.196844
- Title: Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding
- Title(参考訳): ターゲットを知る: ターゲットを意識したトランスフォーマーは、時空間ビデオのグラウンディングを改良する
- Authors: Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang,
- Abstract要約: 既存のTransformerベースのSTVGアプローチは、単に0を使用するオブジェクトクエリのセットを利用することが多い。
単純さにもかかわらず、これらのゼロオブジェクトクエリは、ターゲット固有の手がかりが欠如しているため、識別対象情報の学習が困難である。
STVG (Target-Aware Transformer for STVG) を新たに導入し,ビデオテキストペアからターゲット固有のキューを探索することで,オブジェクトクエリを適応的に生成する手法を提案する。
- 参考スコア(独自算出の注目度): 20.906378094998303
- License:
- Abstract: Transformer has attracted increasing interest in STVG, owing to its end-to-end pipeline and promising result. Existing Transformer-based STVG approaches often leverage a set of object queries, which are initialized simply using zeros and then gradually learn target position information via iterative interactions with multimodal features, for spatial and temporal localization. Despite simplicity, these zero object queries, due to lacking target-specific cues, are hard to learn discriminative target information from interactions with multimodal features in complicated scenarios (\e.g., with distractors or occlusion), resulting in degradation. Addressing this, we introduce a novel Target-Aware Transformer for STVG (TA-STVG), which seeks to adaptively generate object queries via exploring target-specific cues from the given video-text pair, for improving STVG. The key lies in two simple yet effective modules, comprising text-guided temporal sampling (TTS) and attribute-aware spatial activation (ASA), working in a cascade. The former focuses on selecting target-relevant temporal cues from a video utilizing holistic text information, while the latter aims at further exploiting the fine-grained visual attribute information of the object from previous target-aware temporal cues, which is applied for object query initialization. Compared to existing methods leveraging zero-initialized queries, object queries in our TA-STVG, directly generated from a given video-text pair, naturally carry target-specific cues, making them adaptive and better interact with multimodal features for learning more discriminative information to improve STVG. In our experiments on three benchmarks, TA-STVG achieves state-of-the-art performance and significantly outperforms the baseline, validating its efficacy.
- Abstract(参考訳): Transformerは、エンドツーエンドパイプラインと有望な結果により、STVGへの関心が高まっている。
既存のTransformerベースのSTVGアプローチは、単にゼロを使って初期化され、空間的および時間的局所化のために、マルチモーダル特徴との反復的相互作用を通じてターゲット位置情報を徐々に学習する、一連のオブジェクトクエリを利用することが多い。
単純さにもかかわらず、これらのゼロオブジェクトクエリは、ターゲット固有の手がかりが欠如しているため、複雑なシナリオ(イントラクタやオクルージョンを含む)におけるマルチモーダル特徴との相互作用から識別対象情報を学習することは困難であり、結果として劣化をもたらす。
そこで本稿では,STVG の改良のために,ビデオテキストペアからターゲット固有キューを探索することで,オブジェクトクエリを適応的に生成することを目的とした,新しい STVG 用ターゲット・アウェア変換器を提案する。
鍵となるのは、テキスト誘導時空間サンプリング(TTS)と属性認識空間アクティベーション(ASA)の2つの単純で効果的なモジュールで、カスケードで動作する。
前者は、全体的テキスト情報を利用したビデオから対象関連時間的手がかりを選択することに焦点を当て、後者は、オブジェクトクエリ初期化に適用される以前のターゲット対応時間的手がかりから、対象物のきめ細かい視覚的属性情報をさらに活用することを目的としている。
ゼロ初期化クエリを利用する既存の手法と比較して,対象とするビデオテキストペアから直接生成されたTA-STVGのオブジェクトクエリは,ターゲット固有のキューを自然に受け取り,より差別的な情報を学習してSTVGを改善するために,適応的で優れたマルチモーダル機能を実現する。
3つのベンチマーク実験において,TA-STVGは最先端の性能を達成し,ベースラインを著しく上回り,その有効性を検証した。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation [28.16053631036079]
Referring Multi-object Tracking (RMOT)は、ビデオ中の任意の数の対象物を見つけることを目的とした、新たなクロスモーダルタスクである。
本稿では, Transformer アーキテクチャの利点を活用するために TenRMOT と呼ばれる小型トランスフォーマー方式を提案する。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-17T11:07:05Z) - STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。
提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文 参考訳(メタデータ) (2022-10-16T12:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。