論文の概要: Revitalize Region Feature for Democratizing Video-Language Pre-training
- arxiv url: http://arxiv.org/abs/2203.07720v1
- Date: Tue, 15 Mar 2022 08:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 04:05:54.519482
- Title: Revitalize Region Feature for Democratizing Video-Language Pre-training
- Title(参考訳): ビデオランゲージ事前学習の民主化のための地域再生機能
- Authors: Guanyu Cai, Yixiao Ge, Alex Jinpeng Wang, Rui Yan, Xudong Lin, Ying
Shan, Lianghua He, Xiaohu Qie, Jianping Wu, Mike Zheng Shou
- Abstract要約: 本研究では,空間的および時間的視覚的冗長度を低減するため,疎サンプリングビデオクリップの領域特性を再活性化する。
具体的には、地域特徴の可能性を十分に探求するために、新しい双方向領域単語アライメントレギュラー化を導入する。
7つのデータセットの下流テキスト・ビデオ検索とビデオ質問応答タスクの結果は,本手法が有効性と有効性の両方において優れていることを示す。
- 参考スコア(独自算出の注目度): 45.80909334805167
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent dominant methods for video-language pre-training (VLP) learn
transferable representations from the raw pixels in an end-to-end manner to
achieve advanced performance on downstream video-language tasks. Despite the
impressive results, VLP research becomes extremely expensive with the need for
massive data and a long training time, preventing further explorations. In this
work, we revitalize region features of sparsely sampled video clips to
significantly reduce both spatial and temporal visual redundancy towards
democratizing VLP research at the same time achieving state-of-the-art results.
Specifically, to fully explore the potential of region features, we introduce a
novel bidirectional region-word alignment regularization that properly
optimizes the fine-grained relations between regions and certain words in
sentences, eliminating the domain/modality disconnections between pre-extracted
region features and text. Extensive results of downstream text-to-video
retrieval and video question answering tasks on seven datasets demonstrate the
superiority of our method on both effectiveness and efficiency, e.g., our
method achieves competing results with 80\% fewer data and 85\% less
pre-training time compared to the most efficient VLP method so far. The code
will be available at \url{https://github.com/CuthbertCai/DemoVLP}.
- Abstract(参考訳): ビデオ言語事前学習(VLP)における近年の主流手法は、下流の映像言語タスクにおける高度なパフォーマンスを達成するために、原画素からの転送可能な表現をエンドツーエンドに学習する。
驚くべき結果にもかかわらず、VLPの研究は膨大なデータと長い訓練時間を必要として非常に高価になり、さらなる探査を妨げている。
本研究では,空間的および時間的視覚的冗長性を低減し,同時にVLP研究の民主化を図り,最先端の成果を達成するために,疎遠なビデオクリップの領域的特徴を再活性化する。
具体的には,文中の領域と特定の単語間のきめ細かな関係を適切に最適化し,抽出された領域特徴とテキスト間のドメイン/モダリティ切断を解消する,双方向の領域単語アライメント規則化を提案する。
7つのデータセット上の下流のテキスト対ビデオ検索およびビデオ質問応答タスクの広範な結果から,提案手法の有効性と効率性が両立することを示す。例えば,本手法は,これまでの最も効率的なvlp法と比較して,80\%少ないデータと85\%少ない事前学習時間で競合する結果が得られる。
コードは \url{https://github.com/CuthbertCai/DemoVLP} で入手できる。
関連論文リスト
- Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization [3.996503381756227]
WTAL(Weakly supervised temporal action Localization)は、ビデオレベルのアノテーションのみを使用して、未トリミングビデオ中のアクションインスタンスを検出することを目的としている。
本稿では,人間の行動知識と意味知識を確率論的埋め込み空間に整合させる新しい枠組みを提案する。
本手法は,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-12T07:09:12Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。