論文の概要: Context-TAP: Tracking Any Point Demands Spatial Context Features
- arxiv url: http://arxiv.org/abs/2306.02000v1
- Date: Sat, 3 Jun 2023 04:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:55:38.710005
- Title: Context-TAP: Tracking Any Point Demands Spatial Context Features
- Title(参考訳): Context-TAP: 任意のポイント要求の空間的コンテキスト機能を追跡する
- Authors: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yitong Dong, Yijin Li,
Hongsheng Li
- Abstract要約: 本稿では,ビデオ中の問合せ点の長期的軌跡を推定することを目的としたTAP(Tracking Any Point)の問題に対処する。
我々は、独立したビデオポイントトラッキングも空間的コンテキスト機能を必要とすると論じている。
本稿では,ビデオの空間的特徴を集約することにより,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークであるContext-TAPを提案する。
- 参考スコア(独自算出の注目度): 25.91063349391783
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We tackle the problem of Tracking Any Point (TAP) in videos, which
specifically aims at estimating persistent long-term trajectories of query
points in videos. Previous methods attempted to estimate these trajectories
independently to incorporate longer image sequences, therefore, ignoring the
potential benefits of incorporating spatial context features. We argue that
independent video point tracking also demands spatial context features. To this
end, we propose a novel framework Context-TAP, which effectively improves point
trajectory accuracy by aggregating spatial context features in videos.
Context-TAP contains two main modules: 1) a SOurse Feature Enhancement (SOFE)
module, and 2) a TArget Feature Aggregation (TAFA) module. Context-TAP
significantly improves PIPs all-sided, reducing 11.4% Average Trajectory Error
of Occluded Points (ATE-Occ) on CroHD and increasing 11.8% Average Percentage
of Correct Keypoint (A-PCK) on TAP-Vid-Kinectics. Demos are available at this
$\href{https://wkbian.github.io/Projects/Context-TAP/}{webpage}$.
- Abstract(参考訳): 本稿では,ビデオ中の問合せ点の長期的軌跡を推定することを目的としたTAP(Tracking Any Point)の問題に取り組む。
従来の手法では、これらの軌跡を独立して推定して、より長い画像列を組み込むことが試みられた。
独立したビデオポイントトラッキングは、空間的コンテキスト機能も必要としている。
そこで本稿では,ビデオの空間的特徴を集約することにより,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークであるContext-TAPを提案する。
Context-TAP には2つの主要なモジュールがある。
1) sourse feature enhancement (sofe)モジュール、及び
2) TArget Feature Aggregation (TAFA)モジュール。
Context-TAP は PIP を全面的に改善し、CroHD 上の Occluded Points (ATE-Occ) の平均軌道誤差を 11.4% 削減し、TAP-Vid-Kinectics 上では 11.8% のA-PCK を向上した。
デモは、この$\href{https://wkbian.github.io/Projects/Context-TAP/}{webpage}$で入手できる。
関連論文リスト
- Point Deformable Network with Enhanced Normal Embedding for Point Cloud
Analysis [59.12922158979068]
近年,ポイントクラウド解析において高い性能を示す手法が提案されている。
単純なアーキテクチャは局所的な点群で幾何学的特徴を学ぶことができるが、長距離依存を直接モデル化することができない。
本稿では,表現能力の強い長距離関係を捉えるために,PDNet(Point Deformable Network)を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:52:07Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Point Cloud Classification Using Content-based Transformer via
Clustering in Feature Space [25.57569871876213]
本稿では,PointConTと呼ばれるポイントコンテントベースのトランスフォーマーアーキテクチャを提案する。
特徴空間内の点(コンテンツベース)の局所性を利用して、類似した特徴を持つサンプルポイントを同じクラスにクラスタし、各クラス内の自己アテンションを計算する。
また,各枝の高周波・低周波情報を並列構造を用いて個別に集約するインセプション機能アグリゲータも導入した。
論文 参考訳(メタデータ) (2023-03-08T14:11:05Z) - Object Localization under Single Coarse Point Supervision [107.46800858130658]
本稿では,粗い点アノテーションを用いたPOL手法を提案する。
CPRは、ポイントバッグを構築し、セマンティック関連点を選択し、マルチインスタンス学習(MIL)を通してセマンティックセンターポイントを生成する。
このようにして、CPRは、粗い点監督の下で高性能オブジェクトローカライザのトレーニングを保証する、弱い制御された進化手順を定義する。
論文 参考訳(メタデータ) (2022-03-17T14:14:11Z) - PointDSC: Robust Point Cloud Registration using Deep Spatial Consistency [38.93610732090426]
本稿では,空間的整合性を明確に組み込んだ新しいディープニューラルネットワークであるPointDSCを提案する。
本手法は,いくつかの実世界のデータセットにおいて,最先端の手作りおよび学習に基づく異常者拒絶アプローチを上回っている。
論文 参考訳(メタデータ) (2021-03-09T14:56:08Z) - ORDNet: Capturing Omni-Range Dependencies for Scene Parsing [135.11360962062957]
Omni-Range Dependencies Network(ORDNet)を構築し、短距離、中長距離の依存関係を効果的にキャプチャします。
我々のORDNetは、より包括的なコンテキスト情報を抽出し、シーンイメージの複雑な空間分散に順応することができる。
論文 参考訳(メタデータ) (2021-01-11T14:51:11Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。