論文の概要: LocVTP: Video-Text Pre-training for Temporal Localization
- arxiv url: http://arxiv.org/abs/2207.10362v1
- Date: Thu, 21 Jul 2022 08:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:09:48.577352
- Title: LocVTP: Video-Text Pre-training for Temporal Localization
- Title(参考訳): LocVTP: 時間的ローカライゼーションのためのビデオテキスト事前トレーニング
- Authors: Meng Cao, Tianyu Yang, Junwu Weng, Can Zhang, Jue Wang, and Yuexian
Zou
- Abstract要約: Video-Text Pre-trainingは、大規模なWebビデオからさまざまな下流タスクの転送可能な表現を学ぶことを目的としている。
本稿では,現在のVTP手法とローカライズタスクの非互換性を実験的に解析し,実証する。
ローカライズ指向のビデオテキスト事前学習フレームワークであるLocVTPを提案する。
- 参考スコア(独自算出の注目度): 71.74284893790092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-Text Pre-training (VTP) aims to learn transferable representations for
various downstream tasks from large-scale web videos. To date, almost all
existing VTP methods are limited to retrieval-based downstream tasks, e.g.,
video retrieval, whereas their transfer potentials on localization-based tasks,
e.g., temporal grounding, are under-explored. In this paper, we experimentally
analyze and demonstrate the incompatibility of current VTP methods with
localization tasks, and propose a novel Localization-oriented Video-Text
Pre-training framework, dubbed as LocVTP. Specifically, we perform the
fine-grained contrastive alignment as a complement to the coarse-grained one by
a clip-word correspondence discovery scheme. To further enhance the temporal
reasoning ability of the learned feature, we propose a context projection head
and a temporal aware contrastive loss to perceive the contextual relationships.
Extensive experiments on four downstream tasks across six datasets demonstrate
that our LocVTP achieves state-of-the-art performance on both retrieval-based
and localization-based tasks. Furthermore, we conduct comprehensive ablation
studies and thorough analyses to explore the optimum model designs and training
strategies.
- Abstract(参考訳): ビデオテキスト事前学習(VTP)は、大規模なWebビデオから様々な下流タスクの転送可能な表現を学習することを目的としている。
現在までに、既存のVTP手法のほとんどは、例えばビデオ検索のような、検索に基づく下流タスクに限られているが、時間的グラウンドなど、ローカライゼーションに基づくタスクへの転送ポテンシャルは未探索である。
本稿では,現在のVTP手法とローカライズタスクの非互換性を実験的に分析し,ロクVTPと呼ばれる新しいローカライズ指向ビデオテキスト事前学習フレームワークを提案する。
具体的には, クリップワード対応発見方式により, 粗粒との補完として細粒度の対比アライメントを行う。
学習した特徴の時間的推論能力をさらに高めるために,文脈的関係を知覚する文脈投影ヘッドと時間的意識的コントラスト損失を提案する。
6つのデータセットにまたがる4つの下流タスクに関する大規模な実験により、我々のLocVTPは検索ベースとローカライゼーションベースの両方のタスクで最先端のパフォーマンスを達成することを示した。
さらに, モデル設計とトレーニング戦略を検討するため, 包括的アブレーション研究を行い, 徹底的な解析を行った。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。