論文の概要: Robust Object Modeling for Visual Tracking
- arxiv url: http://arxiv.org/abs/2308.05140v1
- Date: Wed, 9 Aug 2023 15:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 14:50:27.486270
- Title: Robust Object Modeling for Visual Tracking
- Title(参考訳): ビジュアルトラッキングのためのロバストオブジェクトモデリング
- Authors: Yidong Cai, Jie Liu, Jie Tang, Gangshan Wu
- Abstract要約: ビジュアルトラッキングのための堅牢なオブジェクトモデリングフレームワーク(ROMTrack)を提案する。
ROMTrackは、固有のテンプレートとハイブリッドテンプレート機能を同時にモデル化する。
変分トークンはオブジェクトの変形や外観の変化に適応し、無視できる計算で全体的なパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 36.05869157990915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object modeling has become a core part of recent tracking frameworks. Current
popular tackers use Transformer attention to extract the template feature
separately or interactively with the search region. However, separate template
learning lacks communication between the template and search regions, which
brings difficulty in extracting discriminative target-oriented features. On the
other hand, interactive template learning produces hybrid template features,
which may introduce potential distractors to the template via the cluttered
search regions. To enjoy the merits of both methods, we propose a robust object
modeling framework for visual tracking (ROMTrack), which simultaneously models
the inherent template and the hybrid template features. As a result, harmful
distractors can be suppressed by combining the inherent features of target
objects with search regions' guidance. Target-related features can also be
extracted using the hybrid template, thus resulting in a more robust object
modeling framework. To further enhance robustness, we present novel variation
tokens to depict the ever-changing appearance of target objects. Variation
tokens are adaptable to object deformation and appearance variations, which can
boost overall performance with negligible computation. Experiments show that
our ROMTrack sets a new state-of-the-art on multiple benchmarks.
- Abstract(参考訳): オブジェクトモデリングは最近のトラッキングフレームワークの中核となっている。
現在の人気タッカーはTransformerの注意を使ってテンプレート機能を別々に、あるいは検索領域と対話的に抽出する。
しかし,テンプレート学習にはテンプレート領域と検索領域間のコミュニケーションが欠如しており,識別対象特徴の抽出が困難である。
一方、インタラクティブなテンプレート学習はハイブリッドなテンプレート機能を生成し、乱雑な検索領域を通じてテンプレートに潜在的な障害をもたらす可能性がある。
両手法の利点を享受するため,視覚追跡のための頑健なオブジェクトモデリングフレームワーク(ROMTrack)を提案する。
その結果,対象対象物の固有の特徴と探索領域のガイダンスを組み合わせることで,有害な注意散らしを抑えることができる。
ターゲット関連の機能もハイブリッドテンプレートを使って抽出できるため、より堅牢なオブジェクトモデリングフレームワークが実現される。
さらにロバスト性を高めるために,ターゲットオブジェクトの常に変化する外観を表現する新しい変分トークンを提案する。
変分トークンはオブジェクトの変形や外観の変化に適応し、無視できる計算で全体的なパフォーマンスを高めることができる。
実験の結果、ROMTrackは複数のベンチマークで新しい最先端を設定できることがわかった。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Generative Target Update for Adaptive Siamese Tracking [7.662745552551165]
シームズトラッカーは、検索領域内のオブジェクトをローカライズするためにテンプレート(ターゲットモデル)と類似性マッチングを行う。
文献では、現在のフレームのターゲット探索領域から抽出されるトラッカー出力に基づいてテンプレートを更新するためのいくつかの戦略が提案されている。
本稿では,複数フレームのオブジェクト探索領域から合成テンプレートを生成するため,生成モデルを用いたシームズトラッカーのモデル適応手法を提案する。
論文 参考訳(メタデータ) (2022-02-21T00:22:49Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Attention-based Joint Detection of Object and Semantic Part [4.389917490809522]
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して両方の表現を拡張します。
PASCAL-Part 2010データセットの実験では、関節検出は物体検出と部分検出の両方を同時に改善できることが示された。
論文 参考訳(メタデータ) (2020-07-05T18:54:10Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Instance Segmentation of Visible and Occluded Regions for Finding and
Picking Target from a Pile of Objects [25.836334764387498]
本研究では,対象物体の発見・把握が可能な物体の山から対象物を選択するロボットシステムを提案する。
既存のインスタンスセグメンテーションモデルを新しいリルックアーキテクチャで拡張し、モデルがインスタンス間の関係を明示的に学習する。
また、画像合成により、人間のアノテーションを使わずに新しいオブジェクトを処理できるシステムを構築する。
論文 参考訳(メタデータ) (2020-01-21T12:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。