論文の概要: LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling
- arxiv url: http://arxiv.org/abs/2210.11929v1
- Date: Fri, 21 Oct 2022 13:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:32:27.290301
- Title: LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling
- Title(参考訳): LiteVL:空間時間モデリングによる効率的なビデオ言語学習
- Authors: Dongsheng Chen, Chaofan Tao, Lu Hou, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
- 参考スコア(独自算出の注目度): 48.283659682112926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large-scale video-language pre-trained models have shown appealing
performance on various downstream tasks. However, the pre-training process is
computationally expensive due to the requirement of millions of video-text
pairs and the redundant data structure of each video. To mitigate these
problems, we propose LiteVL, which adapts a pre-trained image-language model
BLIP into a video-text model directly on downstream tasks, without heavy
pre-training. To enhance the temporal modeling lacking in the image-language
model, we propose to add temporal attention modules in the image encoder of
BLIP with dynamic temporal scaling. Besides the model-wise adaptation, we also
propose a non-parametric pooling mechanism to adaptively reweight the
fine-grained video embedding conditioned on the text. Experimental results on
text-video retrieval and video question answering show that the proposed LiteVL
even outperforms previous video-language pre-trained models by a clear margin,
though without any video-language pre-training.
- Abstract(参考訳): 最近の大規模ビデオ言語プレトレーニングモデルでは、下流の様々なタスクで魅力的なパフォーマンスが示されている。
しかし、何百万ものビデオテキストペアと各ビデオの冗長なデータ構造を必要とするため、事前学習プロセスは計算コストが高い。
これらの問題を緩和するため,本研究では,事前学習された画像言語モデルblipを,ダウンストリームタスクから直接ビデオテキストモデルに適用するlitevlを提案する。
画像言語モデルに欠けている時間的モデリングを強化するために,blipの画像エンコーダに時間的注意モジュールを動的時間的スケーリングで付加する。
モデル順応の他に,テキスト上の細粒度映像埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構も提案する。
テキスト・ビデオ検索とビデオ質問応答実験の結果,本提案手法は,ビデオ言語事前学習を伴わずに,先行するビデオ言語事前学習モデルよりも明らかに優れていた。
関連論文リスト
- Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。