Fugu-MT 論文翻訳(概要): Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking

論文の概要: Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking

arxiv url: http://arxiv.org/abs/2501.10129v1
Date: Fri, 17 Jan 2025 11:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.747538
Title: Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking
Title（参考訳）: 高速多目的追跡のための適応マイニングキーフレームの時空間グラフ学習
Authors: Futian Wang, Fengxiang Liu, Xiao Wang,
Abstract要約: キーフレーム抽出(KFE)モジュールは、強化学習を利用して動画を適応的にセグメントする。フレーム内フィーチャーフュージョン(IFF)モジュールは、ターゲットと周辺オブジェクト間の情報交換を容易にするために、グラフ畳み込みネットワーク(GCN)を使用する。提案したトラッカーはMOT17データセット上で印象的な結果が得られる。
参考スコア（独自算出の注目度）: 5.746443489229576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of multi-object tracking, the challenge of accurately capturing the spatial and temporal relationships between objects in video sequences remains a significant hurdle. This is further complicated by frequent occurrences of mutual occlusions among objects, which can lead to tracking errors and reduced performance in existing methods. Motivated by these challenges, we propose a novel adaptive key frame mining strategy that addresses the limitations of current tracking approaches. Specifically, we introduce a Key Frame Extraction (KFE) module that leverages reinforcement learning to adaptively segment videos, thereby guiding the tracker to exploit the intrinsic logic of the video content. This approach allows us to capture structured spatial relationships between different objects as well as the temporal relationships of objects across frames. To tackle the issue of object occlusions, we have developed an Intra-Frame Feature Fusion (IFF) module. Unlike traditional graph-based methods that primarily focus on inter-frame feature fusion, our IFF module uses a Graph Convolutional Network (GCN) to facilitate information exchange between the target and surrounding objects within a frame. This innovation significantly enhances target distinguishability and mitigates tracking loss and appearance similarity due to occlusions. By combining the strengths of both long and short trajectories and considering the spatial relationships between objects, our proposed tracker achieves impressive results on the MOT17 dataset, i.e., 68.6 HOTA, 81.0 IDF1, 66.6 AssA, and 893 IDS, proving its effectiveness and accuracy.
Abstract（参考訳）: マルチオブジェクトトラッキングの領域では、ビデオシーケンス内のオブジェクト間の空間的および時間的関係を正確に捉えることが大きなハードルとなっている。これは、オブジェクト間の相互閉塞の頻繁な発生によってさらに複雑になり、既存のメソッドにおけるエラーの追跡と性能の低下につながる可能性がある。これらの課題に乗じて,現在の追跡手法の限界に対処する適応型鍵フレームマイニング手法を提案する。具体的には、強化学習を利用して動画を適応的にセグメント化するキーフレーム抽出(KFE)モジュールを導入する。このアプローチにより、異なるオブジェクト間の構造的空間的関係と、フレーム間のオブジェクトの時間的関係をキャプチャできる。物体閉塞問題に対処するため,我々はフレーム内特徴融合(IFF)モジュールを開発した。フレーム間の機能融合に主にフォーカスする従来のグラフベースの手法とは異なり、我々のIFFモジュールは、グラフ畳み込みネットワーク(GCN)を使用して、フレーム内のターゲットと周辺のオブジェクト間の情報交換を容易にする。このイノベーションは、目標の識別可能性を大幅に向上させ、閉塞による追跡損失と外観の類似性を緩和する。対象物間の空間的関係を考慮した長軌跡と短軌跡の強さを組み合わせることで,MOT17データセット(68.6 HOTA,81.0 IDF1,66.6 AssA,893 IDS)において,その有効性と精度を示す。

関連論文リスト

Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文参考訳（メタデータ） (2025-01-27T10:57:24Z)
Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文参考訳（メタデータ） (2024-12-20T09:10:17Z)
Temporally Consistent Dynamic Scene Graphs: An End-to-End Approach for Action Tracklet Generation [1.6584112749108326]
TCDSG、Temporally Consistent Dynamic Scene Graphsは、時間を通して対象と対象の関係を検出し、追跡し、リンクするエンドツーエンドのフレームワークである。私たちの研究は、マルチフレームビデオ分析における新しい標準を設定し、監視、自律ナビゲーションなどにおける、高インパクトなアプリケーションのための新たな道を開く。
論文参考訳（メタデータ） (2024-12-03T20:19:20Z)
Multi-Scene Generalized Trajectory Global Graph Solver with Composite Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文参考訳（メタデータ） (2023-12-14T14:00:30Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。 SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文参考訳（メタデータ） (2023-09-29T05:13:43Z)
UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文参考訳（メタデータ） (2023-09-03T04:58:12Z)
ReST: A Reconfigurable Spatial-Temporal Graph Model for Multi-Camera Multi-Object Tracking [11.619493960418176]
Multi-Camera Multi-Object Tracking (MC-MOT)は、複数のビューからの情報を利用して、閉塞や混み合ったシーンの問題に対処する。現在のグラフベースの手法では、空間的および時間的整合性に関する情報を効果的に利用しない。本稿では,まず,検出対象を空間的に関連づけて時間グラフに再構成する,新しい再構成可能なグラフモデルを提案する。
論文参考訳（メタデータ） (2023-08-25T08:02:04Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。