論文の概要: Leveraging Vision-Language Large Models for Interpretable Video Action Recognition with Semantic Tokenization
- arxiv url: http://arxiv.org/abs/2509.05695v1
- Date: Sat, 06 Sep 2025 12:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.652949
- Title: Leveraging Vision-Language Large Models for Interpretable Video Action Recognition with Semantic Tokenization
- Title(参考訳): 意味的トークン化を用いた対話型ビデオ行動認識のための視覚言語大モデルの構築
- Authors: Jingwei Peng, Zhixuan Qiu, Boyu Jin, Surasakdi Siripong,
- Abstract要約: 本稿では,事前学習型視覚言語大モデル(LVLM)の映像行動認識への応用を開拓する新しいフレームワークを提案する。
提案手法は,ビデオからセマンティック・トークン (VST) モジュールを特徴とし,生のビデオシーケンスを離散的,意味的,時間的に一貫した「セマンティック・アクショントークン」に革新的に変換する。
これらのトークンと自然言語命令が組み合わさって、ロラファインチューニングされたLVLMで処理され、堅牢なアクション分類とセマンティック推論が行われる。
- 参考スコア(独自算出の注目度): 1.6799377888527687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition often struggles with deep semantic understanding, complex contextual information, and fine-grained distinction, limitations that traditional methods frequently encounter when dealing with diverse video data. Inspired by the remarkable capabilities of large language models, this paper introduces LVLM-VAR, a novel framework that pioneers the application of pre-trained Vision-Language Large Models (LVLMs) to video action recognition, emphasizing enhanced accuracy and interpretability. Our method features a Video-to-Semantic-Tokens (VST) Module, which innovatively transforms raw video sequences into discrete, semantically and temporally consistent "semantic action tokens," effectively crafting an "action narrative" that is comprehensible to an LVLM. These tokens, combined with natural language instructions, are then processed by a LoRA-fine-tuned LVLM (e.g., LLaVA-13B) for robust action classification and semantic reasoning. LVLM-VAR not only achieves state-of-the-art or highly competitive performance on challenging benchmarks such as NTU RGB+D and NTU RGB+D 120, demonstrating significant improvements (e.g., 94.1% on NTU RGB+D X-Sub and 90.0% on NTU RGB+D 120 X-Set), but also substantially boosts model interpretability by generating natural language explanations for its predictions.
- Abstract(参考訳): 人間の行動認識は、しばしば深い意味理解、複雑な文脈情報、そして様々なビデオデータを扱う際に、伝統的な手法が頻繁に遭遇する制限である微妙な区別に苦しむ。
本稿では,LVLM-VARについて述べる。LVLM-VARは,事前学習した視覚言語大モデル(LVLM)の映像行動認識への応用を開拓し,精度の向上と解釈性を重視した新しいフレームワークである。
提案手法は,ビデオからセマンティック・トークン (VST) モジュールを特徴とし,生のビデオシーケンスを離散的,意味的,時間的に一貫した「セマンティック・アクショントークン」に革新的に変換し,LVLMに理解可能な「アクション・ナラティブ」を効果的に作成する。
これらのトークンと自然言語命令が組み合わさって、ロラで調整されたLVLM (eg , LLaVA-13B) で処理され、堅牢なアクション分類とセマンティック推論を行う。
LVLM-VARは、NTU RGB+D や NTU RGB+D 120 のような挑戦的なベンチマークにおける最先端または高い競争性能を達成するだけでなく、大幅な改善(例えば、NTU RGB+D X-Sub では94.1%、NTU RGB+D 120 X-Set では90.0%)を示すとともに、その予測のために自然言語の説明を生成することによって、モデルの解釈可能性を大幅に向上させた。
関連論文リスト
- VT-LVLM-AR: A Video-Temporal Large Vision-Language Model Adapter for Fine-Grained Action Recognition in Long-Term Videos [8.711160469571942]
本稿では,このギャップを埋めるための新しいフレームワークであるVT-LVLM-AR(Video Large Vision-Language Model Adapter for Action Recognition)を紹介する。
VTEMは生動画を意味豊かかつ時間的に一貫性のある「視覚事象シーケンス」に変換する
このフレームワークは、常に最先端のパフォーマンスを達成し、既存のメソッドを上回ります。
論文 参考訳(メタデータ) (2025-08-21T18:03:16Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [52.620554265703916]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。