論文の概要: Temporally Consistent Dynamic Scene Graphs: An End-to-End Approach for Action Tracklet Generation
- arxiv url: http://arxiv.org/abs/2412.02808v1
- Date: Tue, 03 Dec 2024 20:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:25.748301
- Title: Temporally Consistent Dynamic Scene Graphs: An End-to-End Approach for Action Tracklet Generation
- Title(参考訳): 時間的に一貫性のある動的シーングラフ:アクション・トラックレット生成のためのエンド・ツー・エンドアプローチ
- Authors: Raphael Ruschel, Md Awsafur Rahman, Hardik Prajapati, Suya You, B. S. Manjuanth,
- Abstract要約: TCDSG、Temporally Consistent Dynamic Scene Graphsは、時間を通して対象と対象の関係を検出し、追跡し、リンクするエンドツーエンドのフレームワークである。
私たちの研究は、マルチフレームビデオ分析における新しい標準を設定し、監視、自律ナビゲーションなどにおける、高インパクトなアプリケーションのための新たな道を開く。
- 参考スコア(独自算出の注目度): 1.6584112749108326
- License:
- Abstract: Understanding video content is pivotal for advancing real-world applications like activity recognition, autonomous systems, and human-computer interaction. While scene graphs are adept at capturing spatial relationships between objects in individual frames, extending these representations to capture dynamic interactions across video sequences remains a significant challenge. To address this, we present TCDSG, Temporally Consistent Dynamic Scene Graphs, an innovative end-to-end framework that detects, tracks, and links subject-object relationships across time, generating action tracklets, temporally consistent sequences of entities and their interactions. Our approach leverages a novel bipartite matching mechanism, enhanced by adaptive decoder queries and feedback loops, ensuring temporal coherence and robust tracking over extended sequences. This method not only establishes a new benchmark by achieving over 60% improvement in temporal recall@k on the Action Genome, OpenPVSG, and MEVA datasets but also pioneers the augmentation of MEVA with persistent object ID annotations for comprehensive tracklet generation. By seamlessly integrating spatial and temporal dynamics, our work sets a new standard in multi-frame video analysis, opening new avenues for high-impact applications in surveillance, autonomous navigation, and beyond.
- Abstract(参考訳): ビデオコンテンツを理解することは、アクティビティ認識や自律システム、人間とコンピュータのインタラクションといった現実世界のアプリケーションを進める上で重要なことです。
シーングラフは、個々のフレーム内のオブジェクト間の空間的関係をキャプチャするのに適しているが、これらの表現を拡張してビデオシーケンス間の動的相互作用をキャプチャすることは、依然として大きな課題である。
これを解決するために、TDSG(Temporally Consistent Dynamic Scene Graphs)という革新的なエンドツーエンドフレームワークを紹介し、時間にわたって対象と対象の関係を検出し、追跡し、リンクし、アクショントラクレットを生成し、エンティティとその相互作用の時間的に一貫したシーケンスを生成する。
提案手法は,適応デコーダクエリとフィードバックループによって強化された新しい二部マッチング機構を活用し,時間的コヒーレンスと拡張シーケンス上でのロバストな追跡を保証する。
このメソッドは、Action Genome、OpenPVSG、MEVAデータセットの時間的リコールを60%以上改善することで、新しいベンチマークを確立するだけでなく、包括的なトラックレット生成のための永続的なオブジェクトIDアノテーションによるMEVAの拡張の先駆者でもある。
空間的・時間的ダイナミクスをシームレスに統合することにより、我々の研究はマルチフレームビデオ分析における新しい標準を設定し、監視、自律ナビゲーションなどにおけるハイインパクトなアプリケーションのための新たな道を開く。
関連論文リスト
- Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking [5.746443489229576]
キーフレーム抽出(KFE)モジュールは、強化学習を利用して動画を適応的にセグメントする。
フレーム内フィーチャーフュージョン(IFF)モジュールは、ターゲットと周辺オブジェクト間の情報交換を容易にするために、グラフ畳み込みネットワーク(GCN)を使用する。
提案したトラッカーはMOT17データセット上で印象的な結果が得られる。
論文 参考訳(メタデータ) (2025-01-17T11:36:38Z) - Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文 参考訳(メタデータ) (2024-12-20T09:10:17Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos [9.807247838436489]
本研究では,空中ビデオにおける多目的関係モデリングに焦点を当てた新しいAeroEyeデータセットを提案する。
本稿では,Cyclic Graph Transformer (CYCLO) アプローチを提案する。
また、提案手法により、固有巡回パターンでシーケンスを処理し、オブジェクト関係を正しい順序で処理することができる。
論文 参考訳(メタデータ) (2024-06-03T06:24:55Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Understanding Dynamic Scenes using Graph Convolution Networks [22.022759283770377]
本稿では,移動カメラが捉えた時間順のフレーム列から道路車両の挙動をモデル化する新しい枠組みを提案する。
微調整に頼らずに複数のデータセットへの学習のシームレスな移行を示す。
このような振る舞い予測手法は,様々なナビゲーションタスクにおいて即時関連性を見出す。
論文 参考訳(メタデータ) (2020-05-09T13:05:06Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。