論文の概要: Enhancing Video Transformers for Action Understanding with VLM-aided Training
- arxiv url: http://arxiv.org/abs/2403.16128v1
- Date: Sun, 24 Mar 2024 12:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-26 17:25:57.752931
- Title: Enhancing Video Transformers for Action Understanding with VLM-aided Training
- Title(参考訳): VLM支援訓練による行動理解のための映像変換器の強化
- Authors: Hui Lu, Hu Jian, Ronald Poppe, Albert Ali Salah,
- Abstract要約: 本稿では,VTとVLMの相補的な長所を活かしたフレームワークを提案する。
FTPフレームワークには、ビデオ中の人間のアクションの特定の側面に焦点を当てたプロセッサが追加されている。
我々は,Kineetics-400とSomething V2で93.8%,VideoMAEv2を2.8%,Something V2を2.6%上回った。
- 参考スコア(独自算出の注目度): 10.02739652443895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to their ability to extract relevant spatio-temporal video embeddings, Vision Transformers (ViTs) are currently the best performing models in video action understanding. However, their generalization over domains or datasets is somewhat limited. In contrast, Visual Language Models (VLMs) have demonstrated exceptional generalization performance, but are currently unable to process videos. Consequently, they cannot extract spatio-temporal patterns that are crucial for action understanding. In this paper, we propose the Four-tiered Prompts (FTP) framework that takes advantage of the complementary strengths of ViTs and VLMs. We retain ViTs' strong spatio-temporal representation ability but improve the visual encodings to be more comprehensive and general by aligning them with VLM outputs. The FTP framework adds four feature processors that focus on specific aspects of human action in videos: action category, action components, action description, and context information. The VLMs are only employed during training, and inference incurs a minimal computation cost. Our approach consistently yields state-of-the-art performance. For instance, we achieve remarkable top-1 accuracy of 93.8% on Kinetics-400 and 83.4% on Something-Something V2, surpassing VideoMAEv2 by 2.8% and 2.6%, respectively.
- Abstract(参考訳): 関連する時空間ビデオ埋め込みを抽出する能力のため、ViT(Vision Transformer)は現在、ビデオアクション理解において最高のパフォーマンスモデルである。
しかし、ドメインやデータセットに対する一般化は、多少制限されている。
対照的に、Visual Language Models (VLM) は例外的な一般化性能を示しているが、現在はビデオの処理ができない。
そのため、行動理解に不可欠な時空間パターンを抽出することはできない。
本稿では,VTとVLMの相補的な長所を生かした4層プロンプト(FTP)フレームワークを提案する。
我々は、VLM出力に合わせることで、VTsの強い時空間表現能力を保ちながら、視覚的エンコーディングをより包括的かつ汎用的に改善する。
FTPフレームワークには、アクションカテゴリ、アクションコンポーネント、アクション記述、コンテキスト情報という、人間のアクションの特定の側面に焦点を当てた4つの機能プロセッサが追加されている。
VLMはトレーニング時にのみ使用され、推論は最小の計算コストを発生させる。
私たちのアプローチは一貫して最先端のパフォーマンスをもたらします。
例えば、Kineetics-400で93.8%、Something V2で83.4%、VideoMAEv2で2.8%、そして2.6%という驚くべきトップ1の精度を達成した。
関連論文リスト
- SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding [23.96372422130216]
ビデオベースのLarge Language Models (VideoVid-LLMs) は近年大きく進歩している。
彼らは細かな理解に苦しむが、特に視覚力学やビデオの詳細などの側面においてである。
これらの欠点に対処するため、自己監督的断片化タスクにおける細調整ビデオLLMは、そのきめ細かい映像理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T13:40:34Z) - LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。
ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。
本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文 参考訳(メタデータ) (2025-04-09T12:51:10Z) - Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。
軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。
その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction [17.038321383586037]
LVLM(Large Vision-Language Models)は近年,映像理解の分野で大きな進歩を遂げている。
現在のベンチマークはテキストに一様に依存しており、複雑な参照言語を必要とすることが多い。
マルチモーダルなヒューマンモデルインタラクションシナリオにおけるLVLMの映像理解能力を評価するためのベンチマークであるVideo Visual Prompt Benchmark(V2P-Bench)を提案する。
論文 参考訳(メタデータ) (2025-03-22T11:30:46Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Video Action Recognition with Attentive Semantic Units [23.384091957466588]
アクションラベルの後ろに隠れているセマンティックユニット()を利用して、より正確なアクション認識を行います。
視覚言語モデル(VLM)の視覚枝にマルチリージョンモジュール(MRA)を導入する。
完全教師付き学習では,Kinetics-400では87.8%の精度でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-03-17T03:44:15Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - ViLT: Vision-and-Language Transformer Without Convolution or Region
Supervision [10.584604416749965]
視覚・言語下流タスクのための最小限の視覚・言語変換器(ViLT)モデルを提案する。
ViLTは、視覚入力の処理が、テキスト入力を処理するのと同じ畳み込みのない方法で大幅に単純化されるという意味で、モノリシックである。
論文 参考訳(メタデータ) (2021-02-05T18:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。