論文の概要: Multi-Level LVLM Guidance for Untrimmed Video Action Recognition
- arxiv url: http://arxiv.org/abs/2508.17442v1
- Date: Sun, 24 Aug 2025 16:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.526932
- Title: Multi-Level LVLM Guidance for Untrimmed Video Action Recognition
- Title(参考訳): 映像行動認識のためのマルチレベルLVLM誘導
- Authors: Liyang Peng, Sihan Zhu, Yunjie Guo,
- Abstract要約: 本稿では,低レベルの視覚的特徴と高レベルの意味情報とのギャップを埋める新しいアーキテクチャであるイベント・テンポラライズド・ビデオ・トランスフォーマー(ECVT)を紹介する。
ActivityNet v1.3とTHUMOS14の実験では、ECVTは最先端のパフォーマンスを達成しており、平均mAPは40.5%、mAP@0.5は67.1%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition and localization in complex, untrimmed videos remain a formidable challenge in computer vision, largely due to the limitations of existing methods in capturing fine-grained actions, long-term temporal dependencies, and high-level semantic information from low-level visual features. This paper introduces the Event-Contextualized Video Transformer (ECVT), a novel architecture that leverages the advanced semantic understanding capabilities of Large Vision-Language Models (LVLMs) to bridge this gap. ECVT employs a dual-branch design, comprising a Video Encoding Branch for spatio-temporal feature extraction and a Cross-Modal Guidance Branch. The latter utilizes an LVLM to generate multi-granularity semantic descriptions, including Global Event Prompting for macro-level narrative and Temporal Sub-event Prompting for fine-grained action details. These multi-level textual cues are integrated into the video encoder's learning process through sophisticated mechanisms such as adaptive gating for high-level semantic fusion, cross-modal attention for fine-grained feature refinement, and an event graph module for temporal context calibration. Trained end-to-end with a comprehensive loss function incorporating semantic consistency and temporal calibration terms, ECVT significantly enhances the model's ability to understand video temporal structures and event logic. Extensive experiments on ActivityNet v1.3 and THUMOS14 datasets demonstrate that ECVT achieves state-of-the-art performance, with an average mAP of 40.5% on ActivityNet v1.3 and mAP@0.5 of 67.1% on THUMOS14, outperforming leading baselines.
- Abstract(参考訳): 複雑でトリミングされていないビデオにおけるアクション認識とローカライゼーションは、主に細粒度のアクション、長期の時間的依存、低レベルの視覚的特徴から高レベルのセマンティック情報を取得する既存の方法の限界のために、コンピュータビジョンにおいて深刻な課題である。
本稿では,このギャップを埋めるためにLVLM(Large Vision-Language Models)の高度な意味理解機能を活用する新しいアーキテクチャであるEvent-Contextualized Video Transformer(ECVT)を紹介する。
ECVTは、時空間の特徴抽出のためのビデオ符号化ブランチと、クロスモーダルガイダンスブランチからなるデュアルブランチ設計を採用している。
後者はLVLMを使用して、マクロレベルの物語のためのGlobal Event Promptingや、きめ細かいアクションの詳細のためのTemporal Sub-event Promptingなど、多彩なセマンティック記述を生成する。
ビデオエンコーダの学習プロセスには,高レベルなセマンティックフュージョンのための適応ゲーティング,細粒度化のためのクロスモーダルアテンション,時間的コンテキストキャリブレーションのためのイベントグラフモジュールなどの高度な機構が組み込まれている。
意味的一貫性と時間的キャリブレーションを組み込んだ包括的な損失関数を備えたエンドツーエンドのトレーニングにより、ECVTは、ビデオの時間的構造とイベントロジックを理解する能力を大幅に強化する。
ActivityNet v1.3とTHUMOS14データセットの大規模な実験は、ECVTが最先端のパフォーマンスを達成し、平均mAPが40.5%、mAP@0.5が67.1%、THUMOS14がリードベースラインを上回っていることを示している。
関連論文リスト
- VT-LVLM-AR: A Video-Temporal Large Vision-Language Model Adapter for Fine-Grained Action Recognition in Long-Term Videos [8.711160469571942]
本稿では,このギャップを埋めるための新しいフレームワークであるVT-LVLM-AR(Video Large Vision-Language Model Adapter for Action Recognition)を紹介する。
VTEMは生動画を意味豊かかつ時間的に一貫性のある「視覚事象シーケンス」に変換する
このフレームワークは、常に最先端のパフォーマンスを達成し、既存のメソッドを上回ります。
論文 参考訳(メタデータ) (2025-08-21T18:03:16Z) - LET-US: Long Event-Text Understanding of Scenes [23.376693904132786]
イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
論文 参考訳(メタデータ) (2025-08-10T16:02:41Z) - APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval [41.81696346270799]
現在の大規模言語モデル(LM)は時間レベルのビデオ理解に苦慮している。
bftextAdaptive textbfPivot MLbfVisual information textbfRetrieval (textbfAPVR)は、十分に重要な視覚情報を階層的に検索し保持する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T12:27:10Z) - Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。