Fugu-MT 論文翻訳(概要): VLAP: Efficient Video-Language Alignment via Frame Prompting and Distilling for Video Question Answering

論文の概要: VLAP: Efficient Video-Language Alignment via Frame Prompting and Distilling for Video Question Answering

arxiv url: http://arxiv.org/abs/2312.08367v1
Date: Wed, 13 Dec 2023 18:58:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 14:25:33.278448
Title: VLAP: Efficient Video-Language Alignment via Frame Prompting and Distilling for Video Question Answering
Title（参考訳）: VLAP:ビデオ質問応答のためのフレームプロンプティングと蒸留による効率的なビデオ言語アライメント
Authors: Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang
Abstract要約: 本稿では,フレームプロンプティング・蒸留(VLAP)ネットワークを用いた効率的なビデオ言語アライメントを提案する。我々のVLAPモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方に対処する。我々のVLAPネットワークは(STARインタラクションでは+4.6%、STAR平均では+2.2%、3.0倍のスピードアップ)、ビデオ質問応答ベンチマークでは最先端の手法よりも優れています。
参考スコア（独自算出の注目度）: 24.124492376188275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we propose an efficient Video-Language Alignment via Frame-Prompting and Distilling (VLAP) network. Our VLAP model addresses both efficient frame sampling and effective cross-modal alignment in a unified way. In our VLAP network, we design a new learnable question-aware Frame-Prompter together with a new cross-modal distillation (QFormer-Distiller) module. Pre-trained large image-language models have shown promising results on problems such as visual question answering. However, how to efficiently and effectively sample image frames when adapting pre-trained large image-language model to video-language alignment is still the major challenge. Compared with prior work, our VLAP model demonstrates the capability of selecting key frames with critical contents, thus improving the video-language alignment accuracy while reducing the inference latency (+3.3% on NExT-QA Temporal with 3.0X speed up). Overall, our VLAP network outperforms (e.g. +4.6% on STAR Interaction and +2.2% on STAR average with 3.0X speed up, ours 2-frames out-perform SeViLA 4-frames on VLEP with 4.2X speed up) the state-of-the-art methods on the video question-answering benchmarks.
Abstract（参考訳）: 本稿では,vlap(frame-prompting and distilling)ネットワークを用いた効率的な映像言語アライメントを提案する。我々のVLAPモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方を統一的に処理する。 VLAPネットワークでは,学習可能な新しいフレームプロンプタと,新しいクロスモーダル蒸留(QFormer-Distiller)モジュールを設計する。事前訓練された大規模画像言語モデルは、視覚的質問応答のような問題に対して有望な結果を示した。しかし,ビデオ言語アライメントに事前学習した大規模画像言語モデルを適応させる場合,画像フレームを効率的に効率的にサンプリングする方法が大きな課題である。従来の作業と比較して,VLAPモデルは重要な内容を持つキーフレームを選択する能力を示し,推論遅延を低減し,映像のアライメント精度を向上する(NExT-QAのテンポラルでは3倍の速度で+3.3%)。全体として、VLAPネットワークは、STARインタラクションでは+4.6%、STAR平均では+2.2%、VLEPではSeViLA 4フレームでは4.2倍、VLEPではSeViLA 4フレームでは4.2倍)、ビデオ質問応答ベンチマークでは最先端の手法よりも優れています。

関連論文リスト

TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。 TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。 i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文参考訳（メタデータ） (2025-06-05T12:54:56Z)
4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文参考訳（メタデータ） (2025-04-01T07:06:47Z)
VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは、ビデオ-LLMが外部の監督なしにビデオコンテンツから学ぶことができる自己学習パイプラインである。我々のアプローチは、モデルの初期応答における推論エラーを識別する自己記述機構を含む。 VideoSAViは、複数のベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2024-12-01T00:33:05Z)
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
Video-Text to Speech (VTTS) は、会話者のテキストとビデオの両方に条件付けされた音声生成タスクである。視覚,テキスト,音声の入力を共有部分空間に埋め込む,マルチモーダルデコーダのみの統合トランスフォーマモデルであるVisatronicを導入する。 LRS3でのみ訓練されたSOTA法よりも優れた4.5%のWERが得られることを示す。
論文参考訳（メタデータ） (2024-11-26T18:57:29Z)
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文参考訳（メタデータ） (2024-06-13T17:59:16Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
Self-Chained Image-Language Model for Video Localization and Question Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文参考訳（メタデータ） (2023-05-11T17:23:00Z)
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文参考訳（メタデータ） (2023-03-15T20:17:41Z)
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-12T09:08:27Z)
Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文参考訳（メタデータ） (2022-10-10T22:48:08Z)
Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文参考訳（メタデータ） (2022-06-07T16:28:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。