論文の概要: HVC-Net: Unifying Homography, Visibility, and Confidence Learning for
Planar Object Tracking
- arxiv url: http://arxiv.org/abs/2209.08924v1
- Date: Mon, 19 Sep 2022 11:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:27:30.484226
- Title: HVC-Net: Unifying Homography, Visibility, and Confidence Learning for
Planar Object Tracking
- Title(参考訳): HVC-Net:平面物体追跡のためのホログラフィ、可視性、信頼度学習の統合
- Authors: Haoxian Zhang, Yonggen Ling
- Abstract要約: 我々は、ホモグラフィ、可視性、信頼性を共同で検討する統合畳み込みニューラルネットワーク(CNN)モデルを提案する。
提案手法は,パブリックPOTおよびTMTデータセットの最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 5.236567998857959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust and accurate planar tracking over a whole video sequence is vitally
important for many vision applications. The key to planar object tracking is to
find object correspondences, modeled by homography, between the reference image
and the tracked image. Existing methods tend to obtain wrong correspondences
with changing appearance variations, camera-object relative motions and
occlusions. To alleviate this problem, we present a unified convolutional
neural network (CNN) model that jointly considers homography, visibility, and
confidence. First, we introduce correlation blocks that explicitly account for
the local appearance changes and camera-object relative motions as the base of
our model. Second, we jointly learn the homography and visibility that links
camera-object relative motions with occlusions. Third, we propose a confidence
module that actively monitors the estimation quality from the pixel correlation
distributions obtained in correlation blocks. All these modules are plugged
into a Lucas-Kanade (LK) tracking pipeline to obtain both accurate and robust
planar object tracking. Our approach outperforms the state-of-the-art methods
on public POT and TMT datasets. Its superior performance is also verified on a
real-world application, synthesizing high-quality in-video advertisements.
- Abstract(参考訳): ビデオシーケンス全体のロバストで正確な平面追跡は、多くの視覚アプリケーションにとって極めて重要である。
平面オブジェクト追跡の鍵は、参照画像と追跡画像の間のホモグラフィによってモデル化されたオブジェクト対応を見つけることである。
既存の手法では、外観の変化、カメラ・オブジェクト間の相対的な動き、オクルージョンと間違った対応を得る傾向がある。
この問題を緩和するために,ホモグラフィ,可視性,信頼性を共同で考慮した統合畳み込みニューラルネットワーク(cnn)モデルを提案する。
まず,局所的外観変化とカメラ対象相対運動をモデルの基礎として明示的に考慮した相関ブロックを導入する。
第2に,カメラと物体の相対運動と咬合を関連付けるホモグラフィと可視性について共同で学習する。
第3に、相関ブロックで得られた画素相関分布から推定品質を積極的に監視する信頼モジュールを提案する。
これらのモジュールはすべてLucas-Kanade (LK)追跡パイプラインにプラグインされ、正確かつ堅牢な平面オブジェクト追跡の両方を得る。
提案手法は,パブリックPOTおよびTMTデータセットの最先端手法よりも優れている。
その優れたパフォーマンスは、高品質なインビデオ広告を合成する現実世界のアプリケーションでも検証されている。
関連論文リスト
- DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。