論文の概要: Leveraging Text-to-Image Diffusion Models for Unsupervised Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2605.26933v1
- Date: Tue, 26 May 2026 12:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.080242
- Title: Leveraging Text-to-Image Diffusion Models for Unsupervised Visual Object Tracking
- Title(参考訳): 教師なし視覚物体追跡のためのテキスト・画像拡散モデルの活用
- Authors: Zhengbo Zhang, Zhigang Tu, Junsong Yuan, De Wen Soh, Bo Du,
- Abstract要約: 教師なしの視覚的オブジェクト追跡は、地味なアノテーションをトレーニングすることなく、任意のターゲットをビデオで追従する必要がある難しいタスクである。
我々はテキストから画像への拡散モデルを構築し、事前訓練されたモデルに符号化されたリッチな意味知識を活用する。
我々の方法Diff-Trackingは、初期プロンプト学習者とオンラインプロンプト更新者という2つの主要コンポーネントから構成されている。
- 参考スコア(独自算出の注目度): 53.08526613328243
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised visual object tracking is a challenging task that requires following arbitrary targets in videos without training on ground-truth annotations. Despite considerable progress, existing state-of-the-art unsupervised trackers often struggle in scenarios that demand fine-grained understanding of semantic and visual structural information within video frames. Text-to-image diffusion models are well known for their ability to generate images that accurately reflect the semantics and structures described in the input prompt, demonstrating a strong grasp of visual semantics and structures. Building on this capability, we approach the unsupervised tracking from a new perspective by exploiting the rich semantic knowledge encoded in pretrained text-to-image diffusion models. To adapt the diffusion models, which are originally developed for image generation, to the tracking task, we reinterpret the models as a bridge between text and image modalities. This connection is realized through the cross-attention mechanism: when both text and an image are input into the models, they highlight the regions of the image that are semantically aligned with the text in the cross-attention maps. We therefore learn a prompt that represents the tracking target and activates its corresponding region in the cross-attention map for each frame, which enables object tracking with the diffusion model. Specifically, our method Diff-Tracking is composed of two main components: an initial prompt learner and an online prompt updater. The initial prompt learner generates a prompt that captures the target object in the first frame, allowing the diffusion model to identify the target. The online prompt updater refines the prompt based on motion information, enabling consistent tracking across video frames. We evaluate our approach on six challenging tracking datasets demonstrate the effectiveness of our approach.
- Abstract(参考訳): 教師なしの視覚的オブジェクト追跡は、地味なアノテーションをトレーニングすることなく、任意のターゲットをビデオで追従する必要がある難しいタスクである。
かなり進歩したにもかかわらず、既存の最先端の教師なしトラッカーは、ビデオフレーム内のセマンティクスと視覚構造情報の詳細な理解を必要とするシナリオでしばしば苦労する。
テキストと画像の拡散モデルは、入力プロンプトに記述された意味と構造を正確に反映した画像を生成する能力で知られており、視覚的な意味と構造を強く把握している。
この能力に基づいて、事前訓練されたテキスト・画像拡散モデルに符号化されたリッチな意味知識を活用することにより、新しい視点から教師なし追跡にアプローチする。
画像生成のために開発された拡散モデルを追従タスクに適用するために,テキストと画像のモダリティ間のブリッジとして再解釈する。
この接続は、クロスアテンション機構によって実現される: テキストと画像の両方がモデルに入力されると、クロスアテンションマップ内のテキストとセマンティックに一致した画像の領域をハイライトする。
そこで我々は、トラッキング対象を表すプロンプトを学習し、各フレームのクロスアテンションマップで対応する領域を活性化し、拡散モデルによるオブジェクト追跡を可能にする。
具体的には、Diff-Trackingは、初期プロンプト学習者とオンラインプロンプト更新者という2つの主要コンポーネントから構成される。
初期プロンプト学習者は、第1フレーム内のターゲットオブジェクトをキャプチャするプロンプトを生成し、拡散モデルがターゲットを識別できるようにする。
オンラインプロンプト更新器は、モーション情報に基づいてプロンプトを洗練し、ビデオフレーム間の一貫したトラッキングを可能にする。
提案手法の有効性を示す6つの挑戦的追跡データセットに対するアプローチを評価した。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation [41.79836820271156]
In-Context Brush"は、被写体挿入をカスタマイズするためのゼロショットフレームワークである。
オブジェクトイメージとテキストプロンプトをクロスモーダルなデモとして定式化する。
目標は、対象画像を、モデルチューニングなしでテキストプロンプトを整列する対象に塗布することである。
論文 参考訳(メタデータ) (2025-05-26T17:49:10Z) - Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers [19.446590457828012]
Diff-Trackerは、教師なしの視覚追跡タスクに挑戦する新しいアプローチである。
我々の主な考えは、事前訓練された拡散モデルにカプセル化された豊富な知識を活用することである。
論文 参考訳(メタデータ) (2024-07-11T10:57:33Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Directed Diffusion: Direct Control of Object Placement through Attention
Guidance [15.275386705641266]
テキスト誘導拡散モデルは、所望の画像内容を記述する短いテキストプロンプトのみを与えられた、事実上無限の多様な画像を生成することができる。
これらのモデルはしばしば、特定の位置関係における文字のようないくつかの重要なオブジェクトを含むシーンを構成するのに苦労する。
この作業では、必要な方向性を提供するために、特に簡単なアプローチを取ります。
論文 参考訳(メタデータ) (2023-02-25T20:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。