論文の概要: Robust Object Modeling for Visual Tracking
- arxiv url: http://arxiv.org/abs/2308.05140v1
- Date: Wed, 9 Aug 2023 15:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 14:50:27.486270
- Title: Robust Object Modeling for Visual Tracking
- Title(参考訳): ビジュアルトラッキングのためのロバストオブジェクトモデリング
- Authors: Yidong Cai, Jie Liu, Jie Tang, Gangshan Wu
- Abstract要約: ビジュアルトラッキングのための堅牢なオブジェクトモデリングフレームワーク(ROMTrack)を提案する。
ROMTrackは、固有のテンプレートとハイブリッドテンプレート機能を同時にモデル化する。
変分トークンはオブジェクトの変形や外観の変化に適応し、無視できる計算で全体的なパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 36.05869157990915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object modeling has become a core part of recent tracking frameworks. Current
popular tackers use Transformer attention to extract the template feature
separately or interactively with the search region. However, separate template
learning lacks communication between the template and search regions, which
brings difficulty in extracting discriminative target-oriented features. On the
other hand, interactive template learning produces hybrid template features,
which may introduce potential distractors to the template via the cluttered
search regions. To enjoy the merits of both methods, we propose a robust object
modeling framework for visual tracking (ROMTrack), which simultaneously models
the inherent template and the hybrid template features. As a result, harmful
distractors can be suppressed by combining the inherent features of target
objects with search regions' guidance. Target-related features can also be
extracted using the hybrid template, thus resulting in a more robust object
modeling framework. To further enhance robustness, we present novel variation
tokens to depict the ever-changing appearance of target objects. Variation
tokens are adaptable to object deformation and appearance variations, which can
boost overall performance with negligible computation. Experiments show that
our ROMTrack sets a new state-of-the-art on multiple benchmarks.
- Abstract(参考訳): オブジェクトモデリングは最近のトラッキングフレームワークの中核となっている。
現在の人気タッカーはTransformerの注意を使ってテンプレート機能を別々に、あるいは検索領域と対話的に抽出する。
しかし,テンプレート学習にはテンプレート領域と検索領域間のコミュニケーションが欠如しており,識別対象特徴の抽出が困難である。
一方、インタラクティブなテンプレート学習はハイブリッドなテンプレート機能を生成し、乱雑な検索領域を通じてテンプレートに潜在的な障害をもたらす可能性がある。
両手法の利点を享受するため,視覚追跡のための頑健なオブジェクトモデリングフレームワーク(ROMTrack)を提案する。
その結果,対象対象物の固有の特徴と探索領域のガイダンスを組み合わせることで,有害な注意散らしを抑えることができる。
ターゲット関連の機能もハイブリッドテンプレートを使って抽出できるため、より堅牢なオブジェクトモデリングフレームワークが実現される。
さらにロバスト性を高めるために,ターゲットオブジェクトの常に変化する外観を表現する新しい変分トークンを提案する。
変分トークンはオブジェクトの変形や外観の変化に適応し、無視できる計算で全体的なパフォーマンスを高めることができる。
実験の結果、ROMTrackは複数のベンチマークで新しい最先端を設定できることがわかった。
関連論文リスト
- A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Generative Target Update for Adaptive Siamese Tracking [7.662745552551165]
シームズトラッカーは、検索領域内のオブジェクトをローカライズするためにテンプレート(ターゲットモデル)と類似性マッチングを行う。
文献では、現在のフレームのターゲット探索領域から抽出されるトラッカー出力に基づいてテンプレートを更新するためのいくつかの戦略が提案されている。
本稿では,複数フレームのオブジェクト探索領域から合成テンプレートを生成するため,生成モデルを用いたシームズトラッカーのモデル適応手法を提案する。
論文 参考訳(メタデータ) (2022-02-21T00:22:49Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Attention-based Joint Detection of Object and Semantic Part [4.389917490809522]
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して両方の表現を拡張します。
PASCAL-Part 2010データセットの実験では、関節検出は物体検出と部分検出の両方を同時に改善できることが示された。
論文 参考訳(メタデータ) (2020-07-05T18:54:10Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。