論文の概要: ViLA: Efficient Video-Language Alignment for Video Question Answering
- arxiv url: http://arxiv.org/abs/2312.08367v3
- Date: Mon, 29 Apr 2024 09:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 00:05:37.087667
- Title: ViLA: Efficient Video-Language Alignment for Video Question Answering
- Title(参考訳): ViLA: ビデオ質問応答のための効果的なビデオ言語アライメント
- Authors: Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang,
- Abstract要約: 我々のViLAネットワークは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方に対処する。
我々のViLAネットワークは、ビデオ質問応答ベンチマークにおいて最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 22.972518862771697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose an efficient Video-Language Alignment (ViLA) network. Our ViLA model addresses both efficient frame sampling and effective cross-modal alignment in a unified way. In our ViLA network, we design a new learnable text-guided Frame-Prompter together with a new cross-modal distillation (QFormer-Distiller) module. Pre-trained large image-language models have shown promising results on problems such as visual question answering (VQA). However, how to efficiently and effectively sample video frames when adapting pre-trained large image-language model to video-language alignment is still the major challenge. Compared with prior work, our ViLA model demonstrates the capability of selecting key frames with critical contents, thus improving the video-language alignment accuracy while reducing the inference latency +3.3% on NExT-QA Temporal with 3.0X speed up). Overall, our ViLA network outperforms the state-of-the-art methods on the video question-answering benchmarks: +4.6% on STAR Interaction, +2.2% on STAR average with 3.0X speed up, ours 2-frames out-perform SeViLA 4-frames on the VLEP dataset with 4.2X speed-up.
- Abstract(参考訳): 本研究では,効率的なビデオ言語アライメント(ViLA)ネットワークを提案する。
我々のViLAモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方を統一的に処理する。
我々のViLAネットワークでは、新しい学習可能なテキスト誘導フレームプロンプタと、新しいクロスモーダル蒸留(QFormer-Distiller)モジュールを設計する。
事前訓練された大規模画像言語モデルは、視覚的質問応答(VQA)のような問題に対して有望な結果を示した。
しかし、ビデオ言語アライメントに事前学習した大規模画像言語モデルを適応させる場合、ビデオフレームを効率的に効果的にサンプリングする方法は依然として大きな課題である。
従来の作業と比較して、VLAモデルは重要な内容を持つキーフレームを選択する能力を示し、NExT-QAテンポラルにおける推論遅延+3.3%を3倍のスピードアップで削減し、ビデオ言語アライメントの精度を向上させる。
総じて、我々のViLAネットワークは、ビデオ質問答えベンチマークにおける最先端の手法よりも優れており、STARインタラクションでは+4.6%、STAR平均では+2.2%、3.0倍のスピードアップで+2.2%、VLEPデータセットではSeViLA 4フレームを4.2倍のスピードアップで上回っている。
関連論文リスト
- 3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation [13.622700558266658]
本稿では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。
まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減する。
第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。
論文 参考訳(メタデータ) (2024-06-07T11:15:03Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。