論文の概要: Context-PIPs: Persistent Independent Particles Demands Spatial Context
Features
- arxiv url: http://arxiv.org/abs/2306.02000v2
- Date: Wed, 6 Dec 2023 04:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:47:44.584702
- Title: Context-PIPs: Persistent Independent Particles Demands Spatial Context
Features
- Title(参考訳): コンテキスト-PIP: 永続的な独立粒子は空間的コンテキスト特徴を要求する
- Authors: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yitong Dong, Yijin Li,
Hongsheng Li
- Abstract要約: ビデオでは、PIP(Persistent Independent Particles)、別名Tracking Any Point(TAP)に取り組む。
本稿では,ビデオの空間的特徴を集約することで,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークContext-PIPを提案する。
コンテキストPIPはPIPを全面的に改善し、CroHDでは平均11.4%、TAP-Vid-Kinecticsでは平均11.8%となっている。
- 参考スコア(独自算出の注目度): 37.87123882018248
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We tackle the problem of Persistent Independent Particles (PIPs), also called
Tracking Any Point (TAP), in videos, which specifically aims at estimating
persistent long-term trajectories of query points in videos. Previous methods
attempted to estimate these trajectories independently to incorporate longer
image sequences, therefore, ignoring the potential benefits of incorporating
spatial context features. We argue that independent video point tracking also
demands spatial context features. To this end, we propose a novel framework
Context-PIPs, which effectively improves point trajectory accuracy by
aggregating spatial context features in videos. Context-PIPs contains two main
modules: 1) a SOurse Feature Enhancement (SOFE) module, and 2) a TArget Feature
Aggregation (TAFA) module. Context-PIPs significantly improves PIPs all-sided,
reducing 11.4% Average Trajectory Error of Occluded Points (ATE-Occ) on CroHD
and increasing 11.8% Average Percentage of Correct Keypoint (A-PCK) on
TAP-Vid-Kinectics. Demos are available at
https://wkbian.github.io/Projects/Context-PIPs/.
- Abstract(参考訳): 我々は,ビデオ中の問合せ点の長期的軌跡を推定することを目的としたPIP(Tracking Any Point, TAP)の問題に対処する。
従来の手法では、これらの軌跡を独立して推定して、より長い画像列を組み込むことが試みられた。
独立したビデオポイントトラッキングは、空間的コンテキスト機能も必要としている。
そこで本稿では,ビデオの空間的特徴を集約することで,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークContext-PIPを提案する。
Context-PIPは2つの主要なモジュールを含んでいる。
1) sourse feature enhancement (sofe)モジュール、及び
2) TArget Feature Aggregation (TAFA)モジュール。
コンテキストPIPはPIPを全面的に改善し、CroHDでは平均11.4%、TAP-Vid-Kinecticsでは平均11.8%となっている。
デモはhttps://wkbian.github.io/Projects/Context-PIPs/で公開されている。
関連論文リスト
- Point Deformable Network with Enhanced Normal Embedding for Point Cloud
Analysis [59.12922158979068]
近年,ポイントクラウド解析において高い性能を示す手法が提案されている。
単純なアーキテクチャは局所的な点群で幾何学的特徴を学ぶことができるが、長距離依存を直接モデル化することができない。
本稿では,表現能力の強い長距離関係を捉えるために,PDNet(Point Deformable Network)を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:52:07Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Point Cloud Classification Using Content-based Transformer via
Clustering in Feature Space [25.57569871876213]
本稿では,PointConTと呼ばれるポイントコンテントベースのトランスフォーマーアーキテクチャを提案する。
特徴空間内の点(コンテンツベース)の局所性を利用して、類似した特徴を持つサンプルポイントを同じクラスにクラスタし、各クラス内の自己アテンションを計算する。
また,各枝の高周波・低周波情報を並列構造を用いて個別に集約するインセプション機能アグリゲータも導入した。
論文 参考訳(メタデータ) (2023-03-08T14:11:05Z) - Object Localization under Single Coarse Point Supervision [107.46800858130658]
本稿では,粗い点アノテーションを用いたPOL手法を提案する。
CPRは、ポイントバッグを構築し、セマンティック関連点を選択し、マルチインスタンス学習(MIL)を通してセマンティックセンターポイントを生成する。
このようにして、CPRは、粗い点監督の下で高性能オブジェクトローカライザのトレーニングを保証する、弱い制御された進化手順を定義する。
論文 参考訳(メタデータ) (2022-03-17T14:14:11Z) - PointDSC: Robust Point Cloud Registration using Deep Spatial Consistency [38.93610732090426]
本稿では,空間的整合性を明確に組み込んだ新しいディープニューラルネットワークであるPointDSCを提案する。
本手法は,いくつかの実世界のデータセットにおいて,最先端の手作りおよび学習に基づく異常者拒絶アプローチを上回っている。
論文 参考訳(メタデータ) (2021-03-09T14:56:08Z) - ORDNet: Capturing Omni-Range Dependencies for Scene Parsing [135.11360962062957]
Omni-Range Dependencies Network(ORDNet)を構築し、短距離、中長距離の依存関係を効果的にキャプチャします。
我々のORDNetは、より包括的なコンテキスト情報を抽出し、シーンイメージの複雑な空間分散に順応することができる。
論文 参考訳(メタデータ) (2021-01-11T14:51:11Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。