論文の概要: VL-UniTrack: A Unified Framework with Visual-Language Prompts for UAV-Ground Visual Tracking
- arxiv url: http://arxiv.org/abs/2605.04574v1
- Date: Wed, 06 May 2026 07:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.697654
- Title: VL-UniTrack: A Unified Framework with Visual-Language Prompts for UAV-Ground Visual Tracking
- Title(参考訳): VL-UniTrack: UAV-GroundビジュアルトラッキングのためのVisual-Language Promptを備えた統一フレームワーク
- Authors: Boyue Xu, Ruichao Hou, Tongwei Ren, Gangshan Wu,
- Abstract要約: UAV-ground visual tracking (UGVT) は、UAVと地上の両方から同じ物体を同時に追跡することを目的としている。
既存の2ストリーム手法は、孤立した特徴抽出に悩まされ、暗黙の出現マッチングに大きく依存する。
VL-UniTrackは視覚言語プロンプトによって拡張された完全に統一されたフレームワークである。
- 参考スコア(独自算出の注目度): 35.96855931247585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UAV-ground visual tracking (UGVT) aims to simultaneously track the same object from both the UAV and the ground view. However, existing two-stream methods suffer from isolated feature extraction and rely heavily on implicit appearance matching, which struggles to establish reliable correspondence under drastic view differences, leading to tracking unreliability. To address these limitations, we propose VL-UniTrack, a fully unified framework enhanced by visual-language prompts. By encoding features from both views within a single shared encoder, our method breaks the barrier of feature isolation to facilitate sufficient cross-view interaction. To overcome the ambiguity caused by relying solely on appearance matching, we design visual-language geometric prompting module, which fuses language descriptions with visual features to generate learnable prompts. These prompts are then fed into our prompt-guided cross-view adapter module to enable sufficient cross-view feature interaction and to guide the learning of view-specific feature representations. Furthermore, a confidence-modulated mutual distillation loss is proposed to regularize the training by mitigating noise propagation. Extensive experiments demonstrate that our method achieves state-of-the-art performance on the latest benchmark. The code can be downloaded in https://github.com/xuboyue1999/VL-UniTrack.git
- Abstract(参考訳): UAV-ground visual tracking (UGVT) は、UAVと地上の両方から同じ物体を同時に追跡することを目的としている。
しかし、既存の2ストリーム方式は、孤立した特徴抽出に悩まされており、暗黙の出現マッチングに大きく依存している。
これらの制約に対処するため、視覚言語プロンプトによって強化された完全に統一されたフレームワークであるVL-UniTrackを提案する。
一つの共有エンコーダ内で両方のビューから特徴をエンコードすることで、我々の手法は、十分なクロスビューインタラクションを実現するために、特徴分離の障壁を突破する。
外観マッチングのみに頼って生じる曖昧さを克服するため,言語記述を視覚的特徴と融合させて学習可能なプロンプトを生成する視覚言語幾何学的プロンプトモジュールを設計した。
これらのプロンプトはプロンプト誘導型クロスビューアダプタモジュールに入力され、十分なクロスビュー機能インタラクションを可能にし、ビュー固有の特徴表現の学習をガイドします。
さらに、ノイズ伝搬を緩和してトレーニングを調整するために、信頼度を変調した相互蒸留損失を提案する。
大規模実験により,本手法が最新のベンチマークで最先端の性能を達成することを示す。
コードはhttps://github.com/xuboyue 1999/VL-UniTrack.gitでダウンロードできる。
関連論文リスト
- Unleashing Vision-Language Semantics for Deepfake Video Detection [78.7562836979696]
ディープフェイクビデオ検出(DFD)研究は、事前訓練されたビジョンランゲージモデル(VLM)が、異なるアイデンティティにわたるアーティファクトの検出において強力な一般化能力を示すことを示した。
VLAForgeは、深度検出におけるモデルの識別可能性を高めるために、そのようなクロスモーダルセマンティクスの可能性を解き放つ新しいDFDフレームワークである。
論文 参考訳(メタデータ) (2026-03-25T16:05:35Z) - Dual Prompt-Driven Feature Encoding for Nighttime UAV Tracking [7.916061194416488]
本研究は,プロンプト条件付き特徴適応と文脈対応プロンプト進化を統合したデュアルプロンプト駆動型特徴符号化手法を提案する。
夜間UAV追跡におけるデュアルプロンプト駆動トラッカー(DPTracker)の有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2026-03-20T04:16:39Z) - VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning [69.64660280965971]
VideoAnchorは、サブスペース親和性を活用してフレーム間の視覚的手がかりを強化するプラグイン・アンド・プレイモジュールである。
InternVL2-8BとQ2.5VL-72Bのベンチマークで一貫した性能向上を示した。
私たちのコードはhttps://github.com/feufhd/VideoAnchor.comで公開されます。
論文 参考訳(メタデータ) (2025-09-29T17:54:04Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Just Functioning as a Hook for Two-Stage Referring Multi-Object Tracking [22.669740476582835]
Referring Multi-Object Trackingは、自然言語表現で指定されたビデオに対象の軌跡をローカライズすることを目的としている。
本稿では,RMOTにおけるトラッキングと参照の2つのサブタスクの内在的関係を系統的に解析する。
サブタスク間のリンクを再定義するためにHookモジュールを最初に設計した新しい2段階RTTフレームワークであるJustHookを提案する。
論文 参考訳(メタデータ) (2025-03-10T16:38:42Z) - UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。
UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。
実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-12-30T06:34:18Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。