論文の概要: Improving Visual Object Tracking through Visual Prompting
- arxiv url: http://arxiv.org/abs/2409.18901v1
- Date: Fri, 27 Sep 2024 16:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 08:01:28.099301
- Title: Improving Visual Object Tracking through Visual Prompting
- Title(参考訳): Visual Promptingによるビジュアルオブジェクト追跡の改善
- Authors: Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin,
- Abstract要約: トラッカーの識別能力に限界があるため,トラッカーに対する動的対象適応は困難である。
本稿では、この問題を解決するために、汎用的なビジュアルオブジェクト追跡(PiVOT)のための新しいビジュアルプロンプティング機構を提案する。
PiVOTは、事前訓練された基礎モデルCLIPによるプロンプト生成ネットワークを提案し、視覚的プロンプトを自動生成し、洗練する。
- 参考スコア(独自算出の注目度): 24.436237938873695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a discriminative model to distinguish a target from its surrounding distractors is essential to generic visual object tracking. Dynamic target representation adaptation against distractors is challenging due to the limited discriminative capabilities of prevailing trackers. We present a new visual Prompting mechanism for generic Visual Object Tracking (PiVOT) to address this issue. PiVOT proposes a prompt generation network with the pre-trained foundation model CLIP to automatically generate and refine visual prompts, enabling the transfer of foundation model knowledge for tracking. While CLIP offers broad category-level knowledge, the tracker, trained on instance-specific data, excels at recognizing unique object instances. Thus, PiVOT first compiles a visual prompt highlighting potential target locations. To transfer the knowledge of CLIP to the tracker, PiVOT leverages CLIP to refine the visual prompt based on the similarities between candidate objects and the reference templates across potential targets. Once the visual prompt is refined, it can better highlight potential target locations, thereby reducing irrelevant prompt information. With the proposed prompting mechanism, the tracker can generate improved instance-aware feature maps through the guidance of the visual prompt, thus effectively reducing distractors. The proposed method does not involve CLIP during training, thereby keeping the same training complexity and preserving the generalization capability of the pretrained foundation model. Extensive experiments across multiple benchmarks indicate that PiVOT, using the proposed prompting method can suppress distracting objects and enhance the tracker.
- Abstract(参考訳): 対象と周囲の邪魔者を区別するために識別モデルを学ぶことは、汎用的な視覚的物体追跡に不可欠である。
トラッカーの識別能力に限界があるため,トラッカーに対する動的対象適応は困難である。
本稿では、この問題を解決するために、汎用的なビジュアルオブジェクト追跡(PiVOT)のための新しいビジュアルプロンプティング機構を提案する。
PiVOTは、事前訓練された基礎モデルCLIPによるプロンプト生成ネットワークを提案し、視覚的プロンプトを自動生成および洗練し、追跡のための基礎モデル知識の伝達を可能にする。
CLIPは幅広いカテゴリレベルの知識を提供するが、トラッカーはインスタンス固有のデータに基づいて訓練され、ユニークなオブジェクトインスタンスの認識に優れる。
したがって、PiVOTはまず、潜在的なターゲット位置をハイライトする視覚的プロンプトをコンパイルする。
CLIPの知識をトラッカーに転送するために、PiVOTはCLIPを活用して、候補オブジェクトと潜在的なターゲットを越えて参照テンプレートとの類似性に基づいて視覚的なプロンプトを洗練する。
視覚的プロンプトが洗練されると、潜在的なターゲット位置をより強調し、無関係なプロンプト情報を減らすことができる。
提案するプロンプト機構により,視覚的プロンプトの誘導により,改良されたインスタンス認識機能マップを生成できる。
提案手法はトレーニング中にCLIPを含まないため、トレーニングの複雑さを保ち、事前訓練された基礎モデルの一般化能力を保っている。
複数のベンチマークで大規模な実験を行った結果,提案手法を用いたPiVOTは邪魔な物体の抑制やトラッカーの強化が可能であった。
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot
Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文 参考訳(メタデータ) (2023-04-12T17:20:37Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Explicitly Modeling the Discriminability for Instance-Aware Visual
Object Tracking [13.311777431243296]
特徴表現の識別性を明らかにするための新しいインスタンス・アウェア・トラッカー (IAT) を提案する。
提案するIATには,ビデオレベルとオブジェクトレベルを含む2つのバリエーションを実装している。
どちらのバージョンも30FPSで動作しながら最先端のメソッドに対して主要な結果を得る。
論文 参考訳(メタデータ) (2021-10-28T11:24:01Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Learning Target Candidate Association to Keep Track of What Not to Track [100.80610986625693]
目標を追尾し続けるために、逸脱物を追跡することを提案します。
視覚的トラッキングにおいて, トラクタオブジェクト間の接地トルース対応を欠く問題に対処するために, 部分アノテーションと自己監督を組み合わせたトレーニング戦略を提案する。
我々のトラッカーは6つのベンチマークで新しい最先端のベンチマークを設定し、AUCスコアはLaSOTで67.2%、OxUvA長期データセットで+6.1%向上した。
論文 参考訳(メタデータ) (2021-03-30T17:58:02Z) - Unsupervised Deep Representation Learning for Real-Time Tracking [137.69689503237893]
視覚追跡のための教師なし学習手法を提案する。
教師なし学習の動機は、ロバストなトラッカーが双方向トラッキングに有効であるべきだということです。
我々は,シームズ相関フィルタネットワーク上にフレームワークを構築し,教師なし学習を容易にするために,多フレーム検証方式とコスト感受性損失を提案する。
論文 参考訳(メタデータ) (2020-07-22T08:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。