論文の概要: TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events
- arxiv url: http://arxiv.org/abs/2603.04989v1
- Date: Thu, 05 Mar 2026 09:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.167642
- Title: TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events
- Title(参考訳): TAPFormer: フレームとイベントの過渡的非同期融合によるロバストな任意点追跡
- Authors: Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu,
- Abstract要約: 我々は,フレームとイベントの時間一貫性のある非同期融合を行うフレームワークであるTAPFormerを紹介した。
鍵となる革新は、離散フレーム間の時間的進化を明示的にモデル化する過渡的非同期融合機構である。
提案手法は既存のポイントトラッカーよりも優れており,しきい値内の平均画素誤差が28.2%向上している。
- 参考スコア(独自算出の注目度): 37.273066799679135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io
- Abstract(参考訳): 任意の点(TAP)を追跡することはコンピュータビジョンの基本的な課題であり、高精度かつ長期の動作推論を必要とする。
RGBフレームとイベントストリームを組み合わせる最近の試みは有望だが、一般的には同期的あるいは非適応的な融合に依存しており、1つのモードが失敗すると時間的ミスアライメントと深刻な劣化を引き起こす。
我々は,フレームとイベントの非同期時間一貫性融合を行うトランスフォーマーベースのフレームワークであるTAPFormerを導入し,ロバストで高周波な任意の点追跡を行う。
このメカニズムは、連続的なイベント更新を通じて離散フレーム間の時間的進化を明示的にモデル化し、低レートフレームと高レートイベントの間のギャップを埋めます。
さらに、Cross-modal Locally Weighted Fusion (CLWF)モジュールは、モダリティの信頼性に応じて空間的注意を適応的に調整し、ぼやけや低光の下でも安定かつ識別的な特徴を与える。
現実的な条件下でのアプローチを評価するため,様々な照明と動作条件下で,新しい実世界のフレームイベントTAPデータセットを構築した。
提案手法は既存のポイントトラッカーよりも優れており,しきい値内の平均画素誤差が28.2%向上している。
さらに、標準点追跡ベンチマークでは、トラッカーが常に最高のパフォーマンスを達成する。
プロジェクトウェブサイト: tapformer.github.io
関連論文リスト
- SwiTrack: Tri-State Switch for Cross-Modal Object Tracking [74.15663758681849]
クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモード間で切り替える間、ターゲットの一貫性を維持する新しいタスクである。
SwiTrackは3つの特別なストリームを配置することでCMOTを再定義する新しいステートスイッチングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T10:52:54Z) - CETUS: Causal Event-Driven Temporal Modeling With Unified Variable-Rate Scheduling [18.82030002020162]
イベントカメラは、マイクロ秒時間解像度で非同期ピクセルレベルの輝度変化をキャプチャする。
既存の方法では、イベントストリームをフレーム、ボクセルグリッド、ポイントクラウドなどの中間表現に変換することが多い。
本稿では、中間表現なしで生イベントストリームを直接処理する新しいアーキテクチャである可変レート空間イベントマンバを提案する。
論文 参考訳(メタデータ) (2025-09-17T07:55:37Z) - What You Have is What You Track: Adaptive and Robust Multimodal Tracking [72.92244578461869]
本研究では,時間的に不完全なマルチモーダルデータを用いたトラッカー性能に関する総合的研究を行った。
我々のモデルは9つのベンチマークでSOTA性能を達成し、従来の完全性と欠落したモダリティ設定の両方で優れている。
論文 参考訳(メタデータ) (2025-07-08T11:40:21Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。
提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Tracking Any Point with Frame-Event Fusion Network at High Frame Rate [16.749590397918574]
本稿では,イメージイベント融合点トラッカー FE-TAP を提案する。
画像フレームからのコンテキスト情報と、イベントの高時間分解能を組み合わせる。
FE-TAPは様々な困難条件下で高いフレームレートとロバストな点追跡を実現する。
論文 参考訳(メタデータ) (2024-09-18T13:07:19Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。