論文の概要: E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching
- arxiv url: http://arxiv.org/abs/2602.05215v1
- Date: Thu, 05 Feb 2026 02:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.71564
- Title: E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching
- Title(参考訳): E.M.Ground: ホロスティックなイベント知覚とマッチングを備えた時間的グラウンドVid-LLM
- Authors: Jiahao Nie, Wenbin An, Gongjie Zhang, Yicheng Xu, Yap-Peng Tan, Alex C. Kot, Shijian Lu,
- Abstract要約: 時間的ビデオグラウンディングは、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としている。
E.M.GroundはTVGのための新しいVid-LLMで、総合的で一貫性のあるイベント知覚に焦点を当てている。
E.M.Ground は最先端の Vid-LLM を著しく上回っている。
- 参考スコア(独自算出の注目度): 87.38371267983263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in Video Large Language Models (Vid-LLMs), Temporal Video Grounding (TVG), which aims to precisely localize time segments corresponding to query events, remains a significant challenge. Existing methods often match start and end frames by comparing frame features with two separate tokens, relying heavily on exact timestamps. However, this approach fails to capture the event's semantic continuity and integrity, leading to ambiguities. To address this, we propose E.M.Ground, a novel Vid-LLM for TVG that focuses on holistic and coherent event perception. E.M.Ground introduces three key innovations: (i) a special <event> token that aggregates information from all frames of a query event, preserving semantic continuity for accurate event matching; (ii) Savitzky-Golay smoothing to reduce noise in token-to-frame similarities across timestamps, improving prediction accuracy; (iii) multi-grained frame feature aggregation to enhance matching reliability and temporal understanding, compensating for compression-induced information loss. Extensive experiments on benchmark datasets show that E.M.Ground consistently outperforms state-of-the-art Vid-LLMs by significant margins.
- Abstract(参考訳): ビデオ大言語モデル(Vid-LLMs)の最近の進歩にもかかわらず、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としたテンポラルビデオグラウンドティング(TVG)は依然として大きな課題である。
既存の方法は、フレームの特徴と2つの異なるトークンを比較して、正確なタイムスタンプに大きく依存することで、開始フレームと終了フレームにマッチすることが多い。
しかし、このアプローチはイベントのセマンティックな連続性と整合性を捉えることに失敗し、曖昧さにつながります。
そこで本研究では,TVG のための新しい Vid-LLM である E.M.Ground を提案する。
E.M.Groundは3つの重要なイノベーションを紹介している。
i) クエリイベントの全フレームから情報を集約する特別な<event>トークン。
二 タイムスタンプ間のトークンとフレームの類似性を低減するためのサビツキーゴレイ平滑化及び予測精度の向上
3) 圧縮による情報損失を補償し, 整合性および時間的理解を高めるため, 多粒度フレーム特徴集計を行う。
ベンチマークデータセットの大規模な実験により、E.M.Ground は最先端の Vid-LLM を著しく上回っている。
関連論文リスト
- EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models [56.16721798968254]
本研究では,EventSTUという,効率的な理解のためのイベント誘導学習自由フレームワークを提案する。
時間領域において、不要な大フレームを除去するために、イベントカメラのトリガー特性を変化させる粗大なサンプリングアルゴリズムを設計する。
空間領域では,イベントの正当性をゼロコストとして活用し,空間的縮小を誘導する適応的トークンプルーニングアルゴリズムを実現する。
論文 参考訳(メタデータ) (2025-11-24T09:30:02Z) - DATE: Dynamic Absolute Time Enhancement for Long Video Understanding [8.720269393713451]
長期ビデオ理解はマルチモーダル大言語モデル(MLLM)の根本的な課題であり続けている
MLLMにおける時間的意識を高める動的絶対時間拡張(DATE)を提案する。
本稿では,意味的関連性と時間的関連性の両方を保証するための2段階アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:49:22Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - LET-US: Long Event-Text Understanding of Scenes [23.376693904132786]
イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
論文 参考訳(メタデータ) (2025-08-10T16:02:41Z) - PASS: Path-selective State Space Model for Event-based Recognition [12.651829415097758]
イベントカメラは、高時間分解能などの利点を持つバイオインスパイアされたセンサーである。
当社のPASSフレームワークは,高次イベントモデリングに優れた能力を示す。
私たちの重要な洞察は、状態空間モデルを通じて適応的に符号化されたイベント機能を学ぶことです。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval [60.70901959953688]
本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。
クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。
そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
論文 参考訳(メタデータ) (2024-05-22T16:55:31Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。