論文の概要: Enhancing Video Transformers for Action Understanding with VLM-aided Training
- arxiv url: http://arxiv.org/abs/2403.16128v1
- Date: Sun, 24 Mar 2024 12:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:25:57.752931
- Title: Enhancing Video Transformers for Action Understanding with VLM-aided Training
- Title(参考訳): VLM支援訓練による行動理解のための映像変換器の強化
- Authors: Hui Lu, Hu Jian, Ronald Poppe, Albert Ali Salah,
- Abstract要約: 本稿では,VTとVLMの相補的な長所を活かしたフレームワークを提案する。
FTPフレームワークには、ビデオ中の人間のアクションの特定の側面に焦点を当てたプロセッサが追加されている。
我々は,Kineetics-400とSomething V2で93.8%,VideoMAEv2を2.8%,Something V2を2.6%上回った。
- 参考スコア(独自算出の注目度): 10.02739652443895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to their ability to extract relevant spatio-temporal video embeddings, Vision Transformers (ViTs) are currently the best performing models in video action understanding. However, their generalization over domains or datasets is somewhat limited. In contrast, Visual Language Models (VLMs) have demonstrated exceptional generalization performance, but are currently unable to process videos. Consequently, they cannot extract spatio-temporal patterns that are crucial for action understanding. In this paper, we propose the Four-tiered Prompts (FTP) framework that takes advantage of the complementary strengths of ViTs and VLMs. We retain ViTs' strong spatio-temporal representation ability but improve the visual encodings to be more comprehensive and general by aligning them with VLM outputs. The FTP framework adds four feature processors that focus on specific aspects of human action in videos: action category, action components, action description, and context information. The VLMs are only employed during training, and inference incurs a minimal computation cost. Our approach consistently yields state-of-the-art performance. For instance, we achieve remarkable top-1 accuracy of 93.8% on Kinetics-400 and 83.4% on Something-Something V2, surpassing VideoMAEv2 by 2.8% and 2.6%, respectively.
- Abstract(参考訳): 関連する時空間ビデオ埋め込みを抽出する能力のため、ViT(Vision Transformer)は現在、ビデオアクション理解において最高のパフォーマンスモデルである。
しかし、ドメインやデータセットに対する一般化は、多少制限されている。
対照的に、Visual Language Models (VLM) は例外的な一般化性能を示しているが、現在はビデオの処理ができない。
そのため、行動理解に不可欠な時空間パターンを抽出することはできない。
本稿では,VTとVLMの相補的な長所を生かした4層プロンプト(FTP)フレームワークを提案する。
我々は、VLM出力に合わせることで、VTsの強い時空間表現能力を保ちながら、視覚的エンコーディングをより包括的かつ汎用的に改善する。
FTPフレームワークには、アクションカテゴリ、アクションコンポーネント、アクション記述、コンテキスト情報という、人間のアクションの特定の側面に焦点を当てた4つの機能プロセッサが追加されている。
VLMはトレーニング時にのみ使用され、推論は最小の計算コストを発生させる。
私たちのアプローチは一貫して最先端のパフォーマンスをもたらします。
例えば、Kineetics-400で93.8%、Something V2で83.4%、VideoMAEv2で2.8%、そして2.6%という驚くべきトップ1の精度を達成した。
関連論文リスト
- TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Video Action Recognition with Attentive Semantic Units [23.384091957466588]
アクションラベルの後ろに隠れているセマンティックユニット()を利用して、より正確なアクション認識を行います。
視覚言語モデル(VLM)の視覚枝にマルチリージョンモジュール(MRA)を導入する。
完全教師付き学習では,Kinetics-400では87.8%の精度でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-03-17T03:44:15Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - ViLT: Vision-and-Language Transformer Without Convolution or Region
Supervision [10.584604416749965]
視覚・言語下流タスクのための最小限の視覚・言語変換器(ViLT)モデルを提案する。
ViLTは、視覚入力の処理が、テキスト入力を処理するのと同じ畳み込みのない方法で大幅に単純化されるという意味で、モノリシックである。
論文 参考訳(メタデータ) (2021-02-05T18:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。