Fugu-MT 論文翻訳(概要): CoTracker: It is Better to Track Together

論文の概要: CoTracker: It is Better to Track Together

arxiv url: http://arxiv.org/abs/2307.07635v1
Date: Fri, 14 Jul 2023 21:13:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 18:57:53.765445
Title: CoTracker: It is Better to Track Together
Title（参考訳）: CoTracker: 一緒に追跡する方がよい
Authors: Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
Abstract要約: 動画の動き予測法は、映像フレーム内のすべての点の瞬間的な動きを光学的フローを用いて共同で推定するか、動画全体の個々の点の動きを独立に追跡する。ビデオ全体を通して複数のポイントを共同で追跡するアーキテクチャであるCoTrackerを提案する。このアーキテクチャは、光学フローからのいくつかのアイデアと、新しいフレキシブルで強力な設計における文学の追跡を組み合わせたものである。
参考スコア（独自算出の注目度）: 91.1804971397608
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Methods for video motion prediction either estimate jointly the instantaneous motion of all points in a given video frame using optical flow or independently track the motion of individual points throughout the video. The latter is true even for powerful deep-learning methods that can track points through occlusions. Tracking points individually ignores the strong correlation that can exist between the points, for instance, because they belong to the same physical object, potentially harming performance. In this paper, we thus propose CoTracker, an architecture that jointly tracks multiple points throughout an entire video. This architecture combines several ideas from the optical flow and tracking literature in a new, flexible and powerful design. It is based on a transformer network that models the correlation of different points in time via specialised attention layers. The transformer iteratively updates an estimate of several trajectories. It can be applied in a sliding-window manner to very long videos, for which we engineer an unrolled training loop. It can track from one to several points jointly and supports adding new points to track at any time. The result is a flexible and powerful tracking algorithm that outperforms state-of-the-art methods in almost all benchmarks.
Abstract（参考訳）: 動画の動き予測法は、映像フレーム内のすべての点の瞬間的な動きを光学的フローを用いて共同で推定するか、動画全体の個々の点の動きを独立に追跡する。後者は、オクルージョンを通じてポイントを追跡できる強力なディープラーニング手法でも当てはまる。トラッキングポイントは、例えば、同じ物理的オブジェクトに属し、パフォーマンスを害する可能性があるため、ポイントの間に存在する強い相関を個別に無視する。そこで本稿では,ビデオ全体を通して複数のポイントを協調的に追跡するcotrackerを提案する。このアーキテクチャは、新しい柔軟で強力な設計で、光学フローと追跡文学からいくつかのアイデアを組み合わせる。これは特別な注意層を通して時間内の異なる点の相関をモデル化するトランスネットワークに基づいている。変換器は、複数の軌道の推定を反復的に更新する。これは非常に長いビデオにスライディングウィンドウ方式で適用できます。同時に1点から数点まで追跡でき、いつでも新しいポイントを追加できる。その結果、ほぼすべてのベンチマークで最先端の手法を上回る、柔軟で強力な追跡アルゴリズムが得られた。

関連論文リスト

Low Complexity Point Tracking of the Myocardium in 2D Echocardiography [0.7584529737781703]
myoTrackerは、心エコー検査におけるポイントトラッキングのための低複雑さアーキテクチャ(0.3Mパラメータ)である。 CoTracker2アーキテクチャ上に構築されており、コンポーネントをシンプルにし、時間的コンテキストを拡張する。 MyoTrackerは推論時のCoTracker2の74倍、セットアップ時のEchoTrackerの11倍の速度でした。
論文参考訳（メタデータ） (2025-03-13T14:53:00Z)
Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。 TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-07-19T07:48:45Z)
OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning [33.521077115333696]
我々は、OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。 OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。
論文参考訳（メタデータ） (2024-03-14T17:59:13Z)
SeqTrack3D: Exploring Sequence Information for Robust 3D Point Cloud Tracking [26.405519771454102]
本稿では,SeqTrack3DというトラッカーとSequence-to-Sequenceトラッキングパラダイムを導入し,連続フレーム間の目標運動をキャプチャする。本手法は, 重要点の少ないシーンにおいても, 歴史的ボックスからの位置情報を有効活用することにより, ロバストなトラッキングを実現する。大規模なデータセットで実施された実験は、SeqTrack3Dが新しい最先端のパフォーマンスを実現することを示している。
論文参考訳（メタデータ） (2024-02-26T02:14:54Z)
Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。 TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文参考訳（メタデータ） (2023-12-29T03:22:18Z)
DriveTrack: A Benchmark for Long-Range Point Tracking in Real-World Videos [9.304179915575114]
DriveTrackは、現実世界のビデオのキーポイントトラッキングのための新しいベンチマークとデータ生成フレームワークである。 24時間のビデオにまたがる10億のトラックからなるデータセットをリリースします。 DriveTrackの微調整キーポイントトラッカーは、現実世界のシーンの精度を最大7%向上させる。
論文参考訳（メタデータ） (2023-12-15T04:06:52Z)
TopTrack: Tracking Objects By Their Top [13.020122353444497]
TopTrackは、オブジェクトの上部を中心ではなくキーポイントとして使用する、共同検出と追跡の手法である。我々は,検出のキーポイントとしてオブジェクトトップを使用することで,検出ミスの量を削減できることを示す実験を行った。
論文参考訳（メタデータ） (2023-04-12T19:00:12Z)
Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文参考訳（メタデータ） (2022-12-20T10:33:17Z)
Learning to Track Objects from Unlabeled Videos [63.149201681380305]
本稿では,Unsupervised Single Object Tracker (USOT) をスクラッチから学習することを提案する。教師なしトラッカーと教師なしトラッカーのギャップを狭めるために,3段階からなる効果的な教師なし学習手法を提案する。実験の結果、未ラベルのビデオから得られたUSOTは、最先端の教師なしトラッカーよりも大きなマージンでうまく機能していることがわかった。
論文参考訳（メタデータ） (2021-08-28T22:10:06Z)
LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search [104.84999119090887]
ニューラルアーキテクチャサーチ(NAS)を用いて、より軽量で効率的なオブジェクトトラッカーを設計するLightTrackを提案する。総合的な実験は、LightTrackが効果的であることを示している。 SiamRPN++やOceanといった手作りのSOTAトラッカーよりも優れたパフォーマンスを実現するトラッカーを見つけることができる。
論文参考訳（メタデータ） (2021-04-29T17:55:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。