Fugu-MT 論文翻訳(概要): Context-TAP: Tracking Any Point Demands Spatial Context Features

論文の概要: Context-TAP: Tracking Any Point Demands Spatial Context Features

arxiv url: http://arxiv.org/abs/2306.02000v1
Date: Sat, 3 Jun 2023 04:47:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 20:55:38.710005
Title: Context-TAP: Tracking Any Point Demands Spatial Context Features
Title（参考訳）: Context-TAP: 任意のポイント要求の空間的コンテキスト機能を追跡する
Authors: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yitong Dong, Yijin Li, Hongsheng Li
Abstract要約: 本稿では,ビデオ中の問合せ点の長期的軌跡を推定することを目的としたTAP(Tracking Any Point)の問題に対処する。我々は、独立したビデオポイントトラッキングも空間的コンテキスト機能を必要とすると論じている。本稿では,ビデオの空間的特徴を集約することにより,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークであるContext-TAPを提案する。
参考スコア（独自算出の注目度）: 25.91063349391783
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We tackle the problem of Tracking Any Point (TAP) in videos, which specifically aims at estimating persistent long-term trajectories of query points in videos. Previous methods attempted to estimate these trajectories independently to incorporate longer image sequences, therefore, ignoring the potential benefits of incorporating spatial context features. We argue that independent video point tracking also demands spatial context features. To this end, we propose a novel framework Context-TAP, which effectively improves point trajectory accuracy by aggregating spatial context features in videos. Context-TAP contains two main modules: 1) a SOurse Feature Enhancement (SOFE) module, and 2) a TArget Feature Aggregation (TAFA) module. Context-TAP significantly improves PIPs all-sided, reducing 11.4% Average Trajectory Error of Occluded Points (ATE-Occ) on CroHD and increasing 11.8% Average Percentage of Correct Keypoint (A-PCK) on TAP-Vid-Kinectics. Demos are available at this $\href{https://wkbian.github.io/Projects/Context-TAP/}{webpage}$.
Abstract（参考訳）: 本稿では,ビデオ中の問合せ点の長期的軌跡を推定することを目的としたTAP(Tracking Any Point)の問題に取り組む。従来の手法では、これらの軌跡を独立して推定して、より長い画像列を組み込むことが試みられた。独立したビデオポイントトラッキングは、空間的コンテキスト機能も必要としている。そこで本稿では,ビデオの空間的特徴を集約することにより,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークであるContext-TAPを提案する。 Context-TAP には2つの主要なモジュールがある。 1) sourse feature enhancement (sofe)モジュール、及び 2) TArget Feature Aggregation (TAFA)モジュール。 Context-TAP は PIP を全面的に改善し、CroHD 上の Occluded Points (ATE-Occ) の平均軌道誤差を 11.4% 削減し、TAP-Vid-Kinectics 上では 11.8% のA-PCK を向上した。デモは、この$\href{https://wkbian.github.io/Projects/Context-TAP/}{webpage}$で入手できる。

関連論文リスト

PIP: Perturbation-based Iterative Pruning for Large Language Models [5.511065308044068]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文参考訳（メタデータ） (2025-01-25T17:10:50Z)
Exploring Temporally-Aware Features for Point Tracking [58.63091479730935]
Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。 Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-21T15:39:40Z)
Point Deformable Network with Enhanced Normal Embedding for Point Cloud Analysis [59.12922158979068]
近年,ポイントクラウド解析において高い性能を示す手法が提案されている。単純なアーキテクチャは局所的な点群で幾何学的特徴を学ぶことができるが、長距離依存を直接モデル化することができない。本稿では,表現能力の強い長距離関係を捉えるために,PDNet(Point Deformable Network)を提案する。
論文参考訳（メタデータ） (2023-12-20T14:52:07Z)
TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文参考訳（メタデータ） (2023-06-14T17:07:51Z)
Point Cloud Classification Using Content-based Transformer via Clustering in Feature Space [25.57569871876213]
本稿では,PointConTと呼ばれるポイントコンテントベースのトランスフォーマーアーキテクチャを提案する。特徴空間内の点(コンテンツベース)の局所性を利用して、類似した特徴を持つサンプルポイントを同じクラスにクラスタし、各クラス内の自己アテンションを計算する。また,各枝の高周波・低周波情報を並列構造を用いて個別に集約するインセプション機能アグリゲータも導入した。
論文参考訳（メタデータ） (2023-03-08T14:11:05Z)
Object Localization under Single Coarse Point Supervision [107.46800858130658]
本稿では,粗い点アノテーションを用いたPOL手法を提案する。 CPRは、ポイントバッグを構築し、セマンティック関連点を選択し、マルチインスタンス学習(MIL)を通してセマンティックセンターポイントを生成する。このようにして、CPRは、粗い点監督の下で高性能オブジェクトローカライザのトレーニングを保証する、弱い制御された進化手順を定義する。
論文参考訳（メタデータ） (2022-03-17T14:14:11Z)
PointDSC: Robust Point Cloud Registration using Deep Spatial Consistency [38.93610732090426]
本稿では,空間的整合性を明確に組み込んだ新しいディープニューラルネットワークであるPointDSCを提案する。本手法は,いくつかの実世界のデータセットにおいて,最先端の手作りおよび学習に基づく異常者拒絶アプローチを上回っている。
論文参考訳（メタデータ） (2021-03-09T14:56:08Z)
ORDNet: Capturing Omni-Range Dependencies for Scene Parsing [135.11360962062957]
Omni-Range Dependencies Network(ORDNet)を構築し、短距離、中長距離の依存関係を効果的にキャプチャします。我々のORDNetは、より包括的なコンテキスト情報を抽出し、シーンイメージの複雑な空間分散に順応することができる。
論文参考訳（メタデータ） (2021-01-11T14:51:11Z)
CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文参考訳（メタデータ） (2020-12-07T00:31:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。