論文の概要: CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning
- arxiv url: http://arxiv.org/abs/2104.00285v1
- Date: Thu, 1 Apr 2021 06:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:41:05.645454
- Title: CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning
- Title(参考訳): CUPID:ビデオ・ランゲージ表現学習のための事前学習データの適応的キュレーション
- Authors: Luowei Zhou, Jingjing Liu, Yu Cheng, Zhe Gan, Lei Zhang
- Abstract要約: ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
- 参考スコア(独自算出の注目度): 49.18591896085498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work concerns video-language pre-training and representation learning.
In this now ubiquitous training scheme, a model first performs pre-training on
paired videos and text (e.g., video clips and accompanied subtitles) from a
large uncurated source corpus, before transferring to specific downstream
tasks. This two-stage training process inevitably raises questions about the
generalization ability of the pre-trained model, which is particularly
pronounced when a salient domain gap exists between source and target data
(e.g., instructional cooking videos vs. movies). In this paper, we first bring
to light the sensitivity of pre-training objectives (contrastive vs.
reconstructive) to domain discrepancy. Then, we propose a simple yet effective
framework, CUPID, to bridge this domain gap by filtering and adapting source
data to the target data, followed by domain-focused pre-training. Comprehensive
experiments demonstrate that pre-training on a considerably small subset of
domain-focused data can effectively close the source-target domain gap and
achieve significant performance gain, compared to random sampling or even
exploiting the full pre-training dataset. CUPID yields new state-of-the-art
performance across multiple video-language and video tasks, including
text-to-video retrieval [72, 37], video question answering [36], and video
captioning [72], with consistent performance lift over different pre-training
methods.
- Abstract(参考訳): この研究はビデオ言語による事前学習と表現学習に関するものである。
このユビキタスなトレーニングスキームでは、モデルはまず、特定の下流タスクに転送する前に、大きな未完のソースコーパスからペアのビデオやテキスト(ビデオクリップや副タイトルなど)を事前トレーニングします。
この2段階トレーニングプロセスは、ソースデータとターゲットデータ(例えば、指導的調理ビデオと映画)の間に有能なドメインギャップが存在する場合に特に顕著な事前訓練モデルの一般化能力に関する疑問を必然的に提起する。
本稿では,まず,事前学習対象(コントラスト型対再構成型)のドメイン間差に対する感度について述べる。
そこで本研究では,対象データにソースデータをフィルタリング,適応させることで,ドメイン間ギャップを埋める,シンプルで効果的なフレームワークであるCUPIDを提案する。
包括的実験により、ドメイン中心のデータのかなり小さなサブセットでの事前トレーニングは、ランダムサンプリングや完全な事前トレーニングデータセットの活用と比較して、ソースとターゲットのドメインギャップを効果的に閉鎖し、大幅なパフォーマンス向上を達成できることが示された。
CUPIDは、テキスト・ツー・ビデオ検索[72, 37]、ビデオ質問応答[36]、ビデオキャプション[72]など、複数のビデオ言語およびビデオタスクにまたがって、新しい最先端のパフォーマンスを提供する。
関連論文リスト
- Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Hierarchical Self-supervised Representation Learning for Movie
Understanding [24.952866206036536]
本稿では,階層的映画理解モデルの各レベルを個別に事前学習する,新しい階層的自己指導型事前学習戦略を提案する。
具体的には、コントラスト学習目標を用いた低レベルビデオバックボーンの事前トレーニングと、イベントマスク予測タスクを用いた高レベルビデオコンテクストアライザの事前トレーニングを提案する。
まず、我々の自己指導型事前学習戦略が効果的であることを示し、VidSituベンチマーク[37]における全てのタスクとメトリクスのパフォーマンス改善につながっている(例:意味的役割予測を47%から61% CIDErスコアに改善する)。
論文 参考訳(メタデータ) (2022-04-06T21:28:41Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文 参考訳(メタデータ) (2021-12-07T21:50:40Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。