Fugu-MT 論文翻訳(概要): Local All-Pair Correspondence for Point Tracking

論文の概要: Local All-Pair Correspondence for Point Tracking

arxiv url: http://arxiv.org/abs/2407.15420v1
Date: Mon, 22 Jul 2024 06:49:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 16:00:55.269207
Title: Local All-Pair Correspondence for Point Tracking
Title（参考訳）: 点追跡のための局所的全対対応
Authors: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee,
Abstract要約: ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。 LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。
参考スコア（独自算出の注目度）: 59.76186266230608
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce LocoTrack, a highly accurate and efficient model designed for the task of tracking any point (TAP) across video sequences. Previous approaches in this task often rely on local 2D correlation maps to establish correspondences from a point in the query image to a local region in the target image, which often struggle with homogeneous regions or repetitive features, leading to matching ambiguities. LocoTrack overcomes this challenge with a novel approach that utilizes all-pair correspondences across regions, i.e., local 4D correlation, to establish precise correspondences, with bidirectional correspondence and matching smoothness significantly enhancing robustness against ambiguities. We also incorporate a lightweight correlation encoder to enhance computational efficiency, and a compact Transformer architecture to integrate long-term temporal information. LocoTrack achieves unmatched accuracy on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than the current state-of-the-art.
Abstract（参考訳）: ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。このタスクの以前のアプローチは、クエリ画像のポイントからターゲット画像のローカル領域への対応を確立するために、しばしば局所的な2D相関マップに依存しており、しばしば同種領域や反復的な特徴に悩まされ、あいまいさにマッチする。 LocoTrackはこの課題を、局所的な4D相関などの地域間の全対対応を利用して、双方向の対応と一致した滑らかさにより、あいまいさに対する堅牢性を大幅に向上させる、新しいアプローチで克服している。また、計算効率を向上させるために軽量な相関エンコーダと、長期時間情報を統合するためのコンパクトなトランスフォーマーアーキテクチャを組み込んだ。 LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。

関連論文リスト

A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks [31.081278354577893]
点対応からの構造と連続的な動きの推定は、コンピュータビジョンの基本的な問題である。任意のタイムスタンプを持つ2次元点対応系の構造と線形運動推定のための統一的なアプローチを提案する。
論文参考訳（メタデータ） (2025-07-30T14:53:46Z)
St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文参考訳（メタデータ） (2025-04-17T17:55:58Z)
POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文参考訳（メタデータ） (2025-04-08T05:33:13Z)
Efficient Semantic Matching with Hypercolumn Correlation [58.92933923647451]
HCCNetは効率的で効果的なセマンティックマッチング手法である。マルチスケール相関写像の完全なポテンシャルを利用する。 4D相関マップ上では、高価なマッチング関係のマイニングに頼っている。
論文参考訳（メタデータ） (2023-11-07T20:40:07Z)
Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文参考訳（メタデータ） (2023-07-21T14:36:40Z)
TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文参考訳（メタデータ） (2023-06-14T17:07:51Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文参考訳（メタデータ） (2022-07-21T10:31:39Z)
Adaptive Affinity for Associations in Multi-Target Multi-Camera Tracking [53.668757725179056]
本稿では,MTMCTにおけるアフィニティ推定を対応する対応範囲に適応させるための,単純かつ効果的な手法を提案する。すべての外見の変化に対処する代わりに、データアソシエーション中に出現する可能性のあるものに特化したアフィニティメトリックを調整します。ミスマッチを最小限に抑えるため、アダプティブアフィニティモジュールはグローバルなre-ID距離を大幅に改善する。
論文参考訳（メタデータ） (2021-12-14T18:59:11Z)
DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文参考訳（メタデータ） (2021-12-13T18:59:30Z)
Spatio-Temporal Matching for Siamese Visual Tracking [0.0]
類似度マッチングはSiameseトラッカーのコアオペレーションです。 2次元画像マッチングとは異なり、オブジェクト追跡におけるマッチングネットワークは4次元情報(height, width, channel and time)を必要とする。
論文参考訳（メタデータ） (2021-05-06T02:55:58Z)
Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文参考訳（メタデータ） (2021-04-08T06:48:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。