論文の概要: SNP-S3: Shared Network Pre-training and Significant Semantic
Strengthening for Various Video-Text Tasks
- arxiv url: http://arxiv.org/abs/2401.17773v1
- Date: Wed, 31 Jan 2024 12:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:54:00.926661
- Title: SNP-S3: Shared Network Pre-training and Significant Semantic
Strengthening for Various Video-Text Tasks
- Title(参考訳): SNP-S3:様々なビデオテキストタスクのための共有ネットワーク事前学習と意味的強化
- Authors: Xingning Dong, Qingpei Guo, Tian Gan, Qing Wang, Jianlong Wu,
Xiangyuan Ren, Yuan Cheng, Wei Chu
- Abstract要約: 本稿では,生データを直接事前学習することで,モーダルな動画表現を学習するためのフレームワークを提案する。
私たちの主な貢献は、事前トレーニングフレームワークとプロキシタスクにあります。
3つのダウンストリームビデオテキストタスクと6つのデータセットによる実験により、ピクセルレベルのビデオテキスト事前トレーニングにおいて、新たな最先端技術を確立することが実証された。
- 参考スコア(独自算出の注目度): 39.53905387025065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for learning cross-modal video representations by
directly pre-training on raw data to facilitate various downstream video-text
tasks. Our main contributions lie in the pre-training framework and proxy
tasks. First, based on the shortcomings of two mainstream pixel-level
pre-training architectures (limited applications or less efficient), we propose
Shared Network Pre-training (SNP). By employing one shared BERT-type network to
refine textual and cross-modal features simultaneously, SNP is lightweight and
could support various downstream applications. Second, based on the intuition
that people always pay attention to several "significant words" when
understanding a sentence, we propose the Significant Semantic Strengthening
(S3) strategy, which includes a novel masking and matching proxy task to
promote the pre-training performance. Experiments conducted on three downstream
video-text tasks and six datasets demonstrate that, we establish a new
state-of-the-art in pixel-level video-text pre-training; we also achieve a
satisfactory balance between the pre-training efficiency and the fine-tuning
performance. The codebase are available at
https://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/snps3_vtp.
- Abstract(参考訳): 本稿では,様々なダウンストリームビデオテキストタスクを容易にするために,生データを直接事前学習することで,モーダルな動画表現を学習するためのフレームワークを提案する。
私たちの主な貢献は、事前トレーニングフレームワークとプロキシタスクにあります。
まず,2つの主流画素レベルの事前学習アーキテクチャ(限られたアプリケーションかそれ以下)の欠点を踏まえ,共有ネットワーク事前学習(SNP)を提案する。
1つの共有BERT型ネットワークを使用してテキストとクロスモーダル機能を同時に洗練することにより、SNPは軽量で、様々なダウンストリームアプリケーションをサポートすることができる。
第2に,文の理解において,人々が常に「重要な言葉」に注意を払っているという直感に基づいて,新しいマスキングとマッチングプロキシタスクを含む意味的力強化(S3)戦略を提案する。
3つのダウンストリームビデオテキストタスクと6つのデータセットで行った実験は、ピクセルレベルのビデオテキスト事前学習における新たな最先端の確立を実証すると同時に、事前学習効率と微調整性能のバランスを満足できるものにした。
コードベースはhttps://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/snps3_vtpで公開されている。
関連論文リスト
- Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs [33.2696184519275]
MultiGPromptは、グラフ表現学習のための新しいマルチタスク事前学習およびプロンプトフレームワークである。
本稿では,タスク固有の知識とグローバルな事前学習知識を活用するために,構成されたプロンプトとオープンプロンプトからなるデュアルプロンプト機構を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:36:53Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。