論文の概要: Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2508.04546v1
- Date: Wed, 06 Aug 2025 15:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.788364
- Title: Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding
- Title(参考訳): 高精度かつ低レイテンシなオンラインビデオ時間グラウンドのための階層的イベントメモリ
- Authors: Minghang Zheng, Yuxin Peng, Benyuan Sun, Yi Yang, Yang Liu,
- Abstract要約: オンラインビデオ時間グラウンド(OnVTG)の課題に取り組み、ビデオストリーム内で所定のテキストクエリに関連するイベントを特定する必要がある。
通常のビデオ時間グラウンドとは異なり、OnVTGは将来のフレームを観察することなく予測を行うモデルを必要とする。
イベントレベルの情報を様々な期間でモデル化するイベント提案に基づいて予測を行うイベントベースOnVTGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.51013055630857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we tackle the task of online video temporal grounding (OnVTG), which requires the model to locate events related to a given text query within a video stream. Unlike regular video temporal grounding, OnVTG requires the model to make predictions without observing future frames. As online videos are streaming inputs and can go on indefinitely, it is impractical and inefficient to store all historical inputs. The existing OnVTG models employ memory to store recent historical video frame features and predict scores indicating whether the current frame corresponds to the start or end time of the target event. However, these methods lack effective event modeling and cannot retain long-term historical information, leading to low performance. To tackle these challenges, we propose a hierarchical event memory for OnVTG. We propose an event-based OnVTG framework that makes predictions based on event proposals that model event-level information with various durations. To preserve historically valuable event information, we introduce a hierarchical event memory that retains historical events, allowing the model to access both recent and long-term information. To enable the real-time prediction, we further propose a future prediction branch that predicts whether the target event will occur shortly and further regresses the start time of the event. We achieve state-of-the-art performance on the TACoS, ActivityNet Captions, and MAD datasets. Code is available at https://github.com/minghangz/OnVTG.
- Abstract(参考訳): 本稿では,オンラインビデオ時間グラウンドング(OnVTG)の課題に取り組み,ビデオストリーム内の所定のテキストクエリに関連するイベントを特定するモデルを提案する。
通常のビデオ時間グラウンドとは異なり、OnVTGは将来のフレームを観察することなく予測を行うモデルを必要とする。
オンラインビデオはストリーミング入力であり、いつまでも継続できるので、すべての歴史的入力を保存することは非現実的で非効率である。
既存のOnVTGモデルはメモリを使用して、最近の歴史的ビデオフレームの特徴を記憶し、現在のフレームがターゲットイベントの開始時または終了時に対応するかどうかを示すスコアを予測する。
しかし、これらの手法は効果的なイベントモデリングを欠き、長期の履歴情報を保持できないため、性能が低下する。
これらの課題に対処するため,OnVTGの階層型イベントメモリを提案する。
イベントレベルの情報を様々な期間でモデル化するイベント提案に基づいて予測を行うイベントベースOnVTGフレームワークを提案する。
歴史的に価値のあるイベント情報を保存するために、歴史的イベントを保持する階層的なイベントメモリを導入し、モデルが最近の情報と長期情報の両方にアクセスできるようにする。
リアルタイムの予測を可能にするために、ターゲットイベントがすぐに発生するかどうかを予測し、さらにイベントの開始時刻を遅らせる未来予測分岐を提案する。
TACoS、ActivityNet Captions、MADデータセット上での最先端のパフォーマンスを実現する。
コードはhttps://github.com/minghangz/OnVTGで入手できる。
関連論文リスト
- VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in Videos [6.442765801124304]
本稿では,これらのスクリプトをビデオから抽出し,予測する映像イベント理解タスクを提案する。
このタスクをサポートするために,23,000以上の良好なラベル付きイベントを含む大規模データセットであるVidEventを紹介した。
データセットは、厳密なアノテーションプロセスを通じて作成され、高品質で信頼性の高いイベントデータを保証する。
論文 参考訳(メタデータ) (2025-06-03T05:12:48Z) - Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark [36.9654606035663]
本稿では,学生トランスフォーマーネットワークの学習を支援するために,新しい階層的知識蒸留戦略を導入する。
新たに提案したテストタイムチューニング戦略により,テスト対象オブジェクトに対してネットワークモデルを適用する。
大規模なイベントベースのトラッキングデータセットであるEventVOTを提案する。
論文 参考訳(メタデータ) (2025-02-08T13:59:52Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Exploring Event-based Human Pose Estimation with 3D Event Representations [26.34100847541989]
我々は、Rasterized Event Point Cloud(Ras EPC)とDecoupled Event Voxel(DEV)の2つの3Dイベント表現を紹介した。
Ras EPCは、簡潔な時間スライス内のイベントを同じ位置で集約し、それらの3D属性を統計情報と共に保存し、メモリと計算要求を大幅に削減する。
提案手法は,DHP19公開データセット,MMHPSDデータセット,EV-3DPWデータセットで検証し,誘導駆動シーンデータセットEV-JAADと屋外収集車両によるさらなる定性検証を行った。
論文 参考訳(メタデータ) (2023-11-08T10:45:09Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - A Graph Enhanced BERT Model for Event Prediction [35.02248467245135]
BERTモデルを用いたイベントグラフの自動構築について検討する。
我々は、トレーニングプロセスにおけるイベント接続を予測するために、追加の構造化変数をBERTに組み込んだ。
シナリオイベント予測とストーリー終了予測という2つのイベント予測タスクの結果は,我々のアプローチが最先端のベースライン手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-22T13:37:38Z) - Meta-Reinforcement Learning via Buffering Graph Signatures for Live
Video Streaming Events [4.332367445046418]
本稿では,ライブビデオストリーミングイベントに参加する視聴者間のネットワークのキャパシティの予測に適応するメタラーニングモデルを提案する。
実世界の3つのライブビデオストリーミングイベントにおけるリンクウェイト予測タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-03T14:03:22Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。