論文の概要: VT-LVLM-AR: A Video-Temporal Large Vision-Language Model Adapter for Fine-Grained Action Recognition in Long-Term Videos
- arxiv url: http://arxiv.org/abs/2508.15903v1
- Date: Thu, 21 Aug 2025 18:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.157087
- Title: VT-LVLM-AR: A Video-Temporal Large Vision-Language Model Adapter for Fine-Grained Action Recognition in Long-Term Videos
- Title(参考訳): VT-LVLM-AR:長時間ビデオにおける微粒化行動認識のためのビデオテンポラル大型視線モデルアダプタ
- Authors: Kaining Li, Shuwei He, Zihan Xu,
- Abstract要約: 本稿では,このギャップを埋めるための新しいフレームワークであるVT-LVLM-AR(Video Large Vision-Language Model Adapter for Action Recognition)を紹介する。
VTEMは生動画を意味豊かかつ時間的に一貫性のある「視覚事象シーケンス」に変換する
このフレームワークは、常に最先端のパフォーマンスを達成し、既存のメソッドを上回ります。
- 参考スコア(独自算出の注目度): 8.711160469571942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition in long-term videos, characterized by complex backgrounds and subtle action differences, poses significant challenges for traditional deep learning models due to computational overhead, difficulty in capturing long-range temporal dependencies, and limited semantic understanding. While Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) have shown remarkable capabilities in multi-modal understanding and reasoning, their direct application to continuous video streams for fine-grained action recognition remains an open problem. This paper introduces VT-LVLM-AR (Video-Temporal Large Vision-Language Model Adapter for Action Recognition), a novel framework designed to bridge this gap. VT-LVLM-AR comprises a Video-to-Event Mapper (VTEM) that efficiently transforms raw video into compact, semantically rich, and temporally coherent "visual event sequences" through lightweight spatio-temporal feature extraction, adaptive temporal pooling, and conceptual quantization with an event coherence bias. These visual event sequences are then fed into an LVLM-based Action Reasoning module, specifically a frozen LLaVA-1.5 model, adapted using parameter-efficient Prompt Tuning (P-Tuning v2) for action classification. Comprehensive evaluations on the NTU RGB+D and NTU RGB+D 120 datasets demonstrate that VT-LVLM-AR consistently achieves state-of-the-art performance, surpassing existing methods (e.g., 94.1% accuracy on NTU RGB+D X-Sub). Ablation studies confirm the critical contributions of VTEM's components and the efficacy of Prompt Tuning, while human evaluations underscore the interpretability of our visual event representations. This work highlights the immense potential of leveraging LVLMs for robust and interpretable video action understanding through effective video-to-language translation and efficient model adaptation.
- Abstract(参考訳): 複雑な背景と微妙なアクションの違いを特徴とする、長期的なビデオにおける人間の行動認識は、計算オーバーヘッド、長期の時間的依存関係の取得の難しさ、限定的な意味理解によって、従来のディープラーニングモデルに重大な課題を生じさせる。
LVLM(Large Language Models)とLVLM(Large Vision-Language Models)はマルチモーダル理解と推論において顕著な能力を示したが、細粒度アクション認識のための連続ビデオストリームへの直接的な適用は未解決のままである。
本稿では,VT-LVLM-AR (Video-Temporal Large Vision-Language Model Adapter for Action Recognition)を提案する。
VT-LVLM-ARは、ビデオ・ツー・イベント・マッパー(VTEM)を備えており、生の動画を軽量な時空間的特徴抽出、適応時空間プーリング、イベント・コヒーレンスバイアスによる概念的量子化により、コンパクトでセマンティックにリッチで時間的にコヒーレントな「視覚的イベントシーケンス」に効率的に変換する。
これらの視覚イベントシーケンスはLVLMベースのアクション推論モジュール、具体的には凍ったLLaVA-1.5モデルに入力され、パラメータ効率の良いプロンプトチューニング(P-Tuning v2)を使用して動作分類を行う。
NTU RGB+D と NTU RGB+D 120 データセットの総合的な評価は、VT-LVLM-AR が既存の手法(例えば NTU RGB+D X-Sub の94.1% の精度)を超え、一貫して最先端のパフォーマンスを達成していることを示している。
アブレーション研究は、VTEMの構成要素とPrompt Tuningの有効性について、人間の評価は我々の視覚事象表現の解釈可能性を強調している。
本研究は,LVLMを効果的にビデオから言語への翻訳と効率的なモデル適応を通じて,堅牢で解釈可能な映像行動理解に活用する大きな可能性を強調した。
関連論文リスト
- Aligning Effective Tokens with Video Anomaly in Large Language Models [52.620554265703916]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。