論文の概要: TAPTRv2: Attention-based Position Update Improves Tracking Any Point
- arxiv url: http://arxiv.org/abs/2407.16291v1
- Date: Tue, 23 Jul 2024 08:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:06:10.908785
- Title: TAPTRv2: Attention-based Position Update Improves Tracking Any Point
- Title(参考訳): TAPTRv2: 任意のポイントのトラッキングを改善したアテンションベースの位置更新
- Authors: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang,
- Abstract要約: 本稿では、TAP(Tracking Any Point)タスクを解決するために、TAPTRをベースとしたトランスフォーマーベースのアプローチであるTAPTRv2を提案する。
本稿では,新しいアテンションベースの位置更新(APU)操作を提案する。
この設計は、局所的な注意は基本的にコストボリュームと同じであり、どちらもクエリとその周辺の特徴の間のドット生成によって計算される。
- 参考スコア(独自算出の注目度): 34.160634460671176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present TAPTRv2, a Transformer-based approach built upon TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from DEtection TRansformer (DETR) and formulates each tracking point as a point query, making it possible to leverage well-studied operations in DETR-like algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its reliance on cost-volume,which contaminates the point query\'s content feature and negatively impacts both visibility prediction and cost-volume computation. In TAPTRv2, we propose a novel attention-based position update (APU) operation and use key-aware deformable attention to realize. For each query, this operation uses key-aware attention weights to combine their corresponding deformable sampling positions to predict a new query position. This design is based on the observation that local attention is essentially the same as cost-volume, both of which are computed by dot-production between a query and its surrounding features. By introducing this new operation, TAPTRv2 not only removes the extra burden of cost-volume computation, but also leads to a substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves state-of-the-art performance on many challenging datasets, demonstrating the superiority
- Abstract(参考訳): 本稿では,TAP(Tracking Any Point)タスクを解決するために,TAPTR上に構築されたTransformerベースのアプローチであるTAPTRv2を提案する。
TAPTRはDetection TRansformer (DETR) から設計を借用し、各トラッキングポイントをポイントクエリとして定式化する。
TAPTRv2は、ポイントクエリのコンテンツ特徴を汚染し、可視性予測とコストボリューム計算の両方に悪影響を及ぼす、コストボリュームへの依存に関する重要な問題に対処することで、TAPTRを改善する。
TAPTRv2では、新しいアテンションベースの位置更新(APU)操作を提案し、キー・アウェア・デフォルマブル・アテンションを用いて実現した。
各クエリに対して、この操作はキー認識の注意重みを使用して、対応する変形可能なサンプリング位置を組み合わせて、新しいクエリ位置を予測する。
この設計は、局所的な注意は基本的にコストボリュームと同じであり、どちらもクエリとその周辺の特徴の間のドット生成によって計算される。
この新しい操作を導入することで、TAPTRv2はコスト・ボリューム計算の余分な負担を取り除くだけでなく、大幅な性能改善をもたらす。
TAPTRv2はTAPTRを超え、多くの挑戦的なデータセットで最先端のパフォーマンスを達成する。
関連論文リスト
- Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer [12.042768320132694]
文書画像内のテーブル検出は、テーブルの識別とローカライゼーションを含む文書処理において重要なタスクである。
ディープラーニングの最近の進歩は、このタスクの精度を大幅に向上させたが、それでも効果的なトレーニングには大きなラベル付きデータセットに依存している。
本稿では, SAM-DETRを用いた半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-30T20:25:57Z) - TAPTR: Tracking Any Point with Transformers as Detection [33.50183504731619]
TRansformer (TAPTR) を用いた任意の点追跡のためのシンプルで強力なフレームワークを提案する。
点追跡は物体検出と追跡に非常によく似ているという観測に基づいて,TAPの課題に対処するためにDETRライクなアルゴリズムから設計を借りる。
提案フレームワークは,高速な推論速度を持つ様々なTAPデータセットに対して,最先端の性能で高い性能を示す。
論文 参考訳(メタデータ) (2024-03-19T17:57:09Z) - CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。
CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。
CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文 参考訳(メタデータ) (2024-01-30T17:38:48Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Exploring Point-BEV Fusion for 3D Point Cloud Object Tracking with
Transformer [62.68401838976208]
3Dオブジェクトトラッキングは、オブジェクトテンプレートが与えられた連続したフレームにおけるオブジェクトの位置と向きを予測することを目的としている。
トランスの成功に触発されたPTTR(Point Tracking TRansformer)を提案する。
論文 参考訳(メタデータ) (2022-08-10T08:36:46Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。