論文の概要: HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
- arxiv url: http://arxiv.org/abs/2212.14546v1
- Date: Fri, 30 Dec 2022 04:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:46:15.832945
- Title: HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
- Title(参考訳): hitea:階層型時間認識ビデオ言語プレトレーニング
- Authors: Qinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei
Huang
- Abstract要約: 本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
- 参考スコア(独自算出の注目度): 49.52679453475878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-language pre-training has advanced the performance of various
downstream video-language tasks. However, most previous methods directly
inherit or adapt typical image-language pre-training paradigms to
video-language pre-training, thus not fully exploiting the unique
characteristic of video, i.e., temporal. In this paper, we propose a
Hierarchical Temporal-Aware video-language pre-training framework, HiTeA, with
two novel pre-training tasks for modeling cross-modal alignment between moments
and texts as well as the temporal relations of video-text pairs. Specifically,
we propose a cross-modal moment exploration task to explore moments in videos,
which results in detailed video moment representation. Besides, the inherent
temporal relations are captured by aligning video-text pairs as a whole in
different time resolutions with multi-modal temporal relation exploration task.
Furthermore, we introduce the shuffling test to evaluate the temporal reliance
of datasets and video-language pre-training models. We achieve state-of-the-art
results on 15 well-established video-language understanding and generation
tasks, especially on temporal-oriented datasets (e.g., SSv2-Template and
SSv2-Label) with 8.6% and 11.1% improvement respectively. HiTeA also
demonstrates strong generalization ability when directly transferred to
downstream tasks in a zero-shot manner. Models and demo will be available on
ModelScope.
- Abstract(参考訳): ビデオ言語事前学習は、下流の様々なビデオ言語タスクのパフォーマンスを向上した。
しかし、従来のほとんどの手法は、典型的な画像言語事前学習パラダイムをビデオ言語事前学習に直接継承または適応しており、ビデオ特有の特徴、すなわち時間的特性を十分に活用していない。
本稿では,モーメントとテキスト間のクロスモーダルアライメントとビデオテキストペアの時間的関係をモデル化する2つの新しい事前学習タスクを含む,階層型時空間対応ビデオ言語事前学習フレームワークhiteaを提案する。
具体的には、ビデオ中のモーメントを探索するモーダルなモーメント探索タスクを提案し、その結果、詳細なモーメント表現が得られる。
さらに、時間分解能の異なるビデオテキストペア全体を多モーダル時間関係探索タスクと整列させることにより、固有時間関係をキャプチャする。
さらに,データセットとビデオ言語事前学習モデルの時間依存度を評価するために,シャッフルテストを導入する。
特に時間指向データセット(SSv2-TemplateやSSv2-Labelなど)では,それぞれ8.6%,11.1%の改善が見られた。
HiTeAはまた、下流タスクに直接ゼロショットで転送する際の強力な一般化能力を示す。
ModelsとデモはModelScopeで利用できる。
関連論文リスト
- Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Contrastive Language Video Time Pre-training [12.876308881183371]
本稿では,コントラスト学習による長文ビデオにおける言語,ビデオ,時間表現の新たな学習手法であるLAVITIを紹介する。
我々のモデルは、学習可能なモーメントクエリを用いて、クリップレベルの視覚的特徴、言語的特徴、時間的特徴をデコードする。
本手法をCharadesEgo行動認識に応用し,最先端の結果を得た。
論文 参考訳(メタデータ) (2024-06-04T02:48:59Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。