Fugu-MT 論文翻訳(概要): TrackSSM: A General Motion Predictor by State-Space Model

論文の概要: TrackSSM: A General Motion Predictor by State-Space Model

arxiv url: http://arxiv.org/abs/2409.00487v1
Date: Sat, 31 Aug 2024 15:45:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 14:39:09.392207
Title: TrackSSM: A General Motion Predictor by State-Space Model
Title（参考訳）: TrackSSM: 状態空間モデルによる一般的な動作予測器
Authors: Bin Hu, Run Luo, Zelin Liu, Cheng Wang, Wenyu Liu,
Abstract要約: 現在のモーションモデルは、異なるアプリケーションシナリオで効率的かつ効果的であるのに苦労しています。本稿では,最近普及しているエンコーダ・デコーダ・モーション・フレームワークである状態空間モデル(SSM)にインスパイアされたTrackSSMを提案する。 TrackSSMはさまざまなトラッキングシナリオに適用可能で、複数のベンチマークで優れたトラッキング性能を実現している。
参考スコア（独自算出の注目度）: 14.733503542494674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal motion modeling has always been a key component in multiple object tracking (MOT) which can ensure smooth trajectory movement and provide accurate positional information to enhance association precision. However, current motion models struggle to be both efficient and effective across different application scenarios. To this end, we propose TrackSSM inspired by the recently popular state space models (SSM), a unified encoder-decoder motion framework that uses data-dependent state space model to perform temporal motion of trajectories. Specifically, we propose Flow-SSM, a module that utilizes the position and motion information from historical trajectories to guide the temporal state transition of object bounding boxes. Based on Flow-SSM, we design a flow decoder. It is composed of a cascaded motion decoding module employing Flow-SSM, which can use the encoded flow information to complete the temporal position prediction of trajectories. Additionally, we propose a Step-by-Step Linear (S$^2$L) training strategy. By performing linear interpolation between the positions of the object in the previous frame and the current frame, we construct the pseudo labels of step-by-step linear training, ensuring that the trajectory flow information can better guide the object bounding box in completing temporal transitions. TrackSSM utilizes a simple Mamba-Block to build a motion encoder for historical trajectories, forming a temporal motion model with an encoder-decoder structure in conjunction with the flow decoder. TrackSSM is applicable to various tracking scenarios and achieves excellent tracking performance across multiple benchmarks, further extending the potential of SSM-like temporal motion models in multi-object tracking tasks.
Abstract（参考訳）: 時間運動モデリングは、常に複数の物体追跡(MOT)において重要な要素であり、スムーズな軌道運動を保証し、正確な位置情報を提供し、関連精度を高めることができる。しかしながら、現在のモーションモデルは、異なるアプリケーションシナリオで効率的かつ効果的であるのに苦労しています。そこで本研究では,データ依存状態空間モデルを用いてトラジェクトリの時間的動きを実行する統一エンコーダ・デコーダ・モーション・フレームワークである,最近普及している状態空間モデル(SSM)にインスパイアされたTrackSSMを提案する。具体的には,物体境界ボックスの時間的状態遷移を導くために,歴史的軌跡の位置と動き情報を利用するモジュールであるFlow-SSMを提案する。 Flow-SSMに基づいてフローデコーダを設計する。 Flow-SSMを用いたケースド・モーション・デコーディングモジュールで構成されており、符号化されたフロー情報を用いて軌道の時間的位置予測を完了することができる。さらに,ステップバイステップ線形(S$^2$L)のトレーニング戦略を提案する。従来のフレームにおける物体の位置と現在のフレームとの線形補間を行うことで、ステップバイステップの線形トレーニングの擬似ラベルを構築し、時間遷移を完了させる際に、軌道フロー情報がオブジェクト境界ボックスをより良くガイドできるようにする。 TrackSSMは、単純なMamba-Blockを使用して、履歴トラジェクトリのためのモーションエンコーダを構築し、フローデコーダとともにエンコーダ・デコーダ構造を持つテンポラルモーションモデルを形成する。 TrackSSMは、様々なトラッキングシナリオに適用可能で、複数のベンチマークで優れたトラッキング性能を実現し、マルチオブジェクト追跡タスクにおけるSSMのような時間運動モデルの可能性をさらに拡張する。

関連論文リスト

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion [18.191333256398845]
イベントベースのビデオフレーム(VFI)のハードルは、非線形モーションを扱う方法である。我々はTimeTrackerという新しい連続点追跡ベースのVFIフレームワークを提案する。本手法は, 動作推定とフレーム品質の両方において, 先行技術より優れる。
論文参考訳（メタデータ） (2025-05-06T02:12:19Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文参考訳（メタデータ） (2025-03-09T06:16:49Z)
Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文参考訳（メタデータ） (2024-12-20T09:10:17Z)
iMoT: Inertial Motion Transformer for Inertial Navigation [0.5199807441687141]
iMoTは、革新的なトランスフォーマーベースの慣性オドメトリー法である。正確な位置推定のために、運動と回転のモードからクロスモーダル情報を取得する。 iMoTは軌道再構成において、より優れたロバスト性と精度を実現するため、最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2024-12-13T22:52:47Z)
Event-Based Tracking Any Point with Motion-Augmented Temporal Consistency [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。出来事の空間的空間性や動きの感度によって引き起こされる課題に対処する。競合モデルパラメータによる処理を150%高速化する。
論文参考訳（メタデータ） (2024-12-02T09:13:29Z)
MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model [18.607106274732885]
我々は、MTP(Mamba moTion Predictor)という、マンバをベースとしたモーションモデルを導入する。 MTPは、物体の時空間的位置ダイナミクスを入力として、バイマンバ符号化層を用いて動きパターンをキャプチャし、次の動きを予測する。提案するトラッカーであるMambaTrackは、DancetrackやSportsMOTなどのベンチマークで高度なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-08-17T11:58:47Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
ETTrack: Enhanced Temporal Motion Predictor for Multi-Object Tracking [4.250337979548885]
時間的動き予測器であるETTrackを用いた動きに基づくMOT手法を提案する。具体的には、動作予測器は、変換器モデルと時間畳み込みネットワーク(TCN)を統合して、短期および長期の動作パターンをキャプチャする。本研究では,DanceTrackとSportsMOTの最先端トラッカーと比較して,ETTrackの競争性能が向上していることを示す。
論文参考訳（メタデータ） (2024-05-24T17:51:33Z)
Exploring Learning-based Motion Models in Multi-Object Tracking [23.547018300192065]
MambaTrackはオンラインのモーションベースのトラッカーで、DanceTrackとSportsMOTのデータセットで既存のモーションベースのトラッカーを上回っている。軌道特徴抽出における状態空間モデルの可能性を利用して追跡性能を向上させる。
論文参考訳（メタデータ） (2024-03-16T06:26:52Z)
Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文参考訳（メタデータ） (2024-03-07T09:48:13Z)
Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。 3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文参考訳（メタデータ） (2023-08-22T17:53:58Z)
MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-05T04:24:11Z)
MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking [56.92165669843006]
本研究では,短時間から長期間の軌跡を関連づける統合フレームワークで,堅牢な短期・長期動作を学習するMotionTrackを提案する。密集した群集に対して,各ターゲットの複雑な動きを推定できる,短時間の軌跡から相互作用認識動作を学習するための新しい対話モジュールを設計する。極端なオクルージョンのために、ターゲットの履歴軌跡から信頼できる長期動作を学習するための新しいRefind Moduleを構築し、中断された軌跡とそれに対応する検出とを関連付けることができる。
論文参考訳（メタデータ） (2023-03-18T12:38:33Z)
NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion Synthesis System [51.43113919042621]
本稿では,長期・多動作型人体動作合成のためのニューラルネットワークシステムを提案する。このシステムは、単純なユーザ入力からスムーズな遷移を伴う有意義な動作を生成することができる。また,マルチアクション動作合成タスクに特化した新しいデータセットを提案する。
論文参考訳（メタデータ） (2022-09-27T07:10:20Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。