論文の概要: Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers
- arxiv url: http://arxiv.org/abs/2407.08394v1
- Date: Thu, 11 Jul 2024 10:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:49:33.800719
- Title: Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers
- Title(参考訳): Diff-Tracker: テキストと画像の拡散モデルは教師なしトラッカーである
- Authors: Zhengbo Zhang, Li Xu, Duo Peng, Hossein Rahmani, Jun Liu,
- Abstract要約: Diff-Trackerは、教師なしの視覚追跡タスクに挑戦する新しいアプローチである。
我々の主な考えは、事前訓練された拡散モデルにカプセル化された豊富な知識を活用することである。
- 参考スコア(独自算出の注目度): 19.446590457828012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Diff-Tracker, a novel approach for the challenging unsupervised visual tracking task leveraging the pre-trained text-to-image diffusion model. Our main idea is to leverage the rich knowledge encapsulated within the pre-trained diffusion model, such as the understanding of image semantics and structural information, to address unsupervised visual tracking. To this end, we design an initial prompt learner to enable the diffusion model to recognize the tracking target by learning a prompt representing the target. Furthermore, to facilitate dynamic adaptation of the prompt to the target's movements, we propose an online prompt updater. Extensive experiments on five benchmark datasets demonstrate the effectiveness of our proposed method, which also achieves state-of-the-art performance.
- Abstract(参考訳): Diff-Trackerは、事前訓練されたテキスト-画像拡散モデルを活用する、教師なし視覚追跡タスクに挑戦する新しい手法である。
画像意味論や構造情報の理解など,事前学習した拡散モデルにカプセル化された豊富な知識を活用して,教師なしの視覚的追跡に対処する。
この目的のために,拡散モデルが目標を表すプロンプトを学習することで,目標を認識できるように初期プロンプト学習器を設計する。
さらに,ターゲットの動きに対するプロンプトの動的適応を容易にするために,オンラインプロンプト更新器を提案する。
5つのベンチマークデータセットの大規模な実験により,提案手法の有効性が実証された。
関連論文リスト
- DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z) - Towards Sequence-Level Training for Visual Tracking [60.95799261482857]
本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
論文 参考訳(メタデータ) (2022-08-11T13:15:36Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。