論文の概要: Temporal Perceiving Video-Language Pre-training
- arxiv url: http://arxiv.org/abs/2301.07463v1
- Date: Wed, 18 Jan 2023 12:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:08:27.715869
- Title: Temporal Perceiving Video-Language Pre-training
- Title(参考訳): 時間知覚型ビデオ言語事前学習
- Authors: Fan Ma, Xiaojie Jin, Heng Wang, Jingjia Huang, Linchao Zhu, Jiashi
Feng, Yi Yang
- Abstract要約: 本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
- 参考スコア(独自算出の注目度): 112.1790287726804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-Language Pre-training models have recently significantly improved
various multi-modal downstream tasks. Previous dominant works mainly adopt
contrastive learning to achieve global feature alignment across modalities.
However, the local associations between videos and texts are not modeled,
restricting the pre-training models' generality, especially for tasks requiring
the temporal video boundary for certain query texts. This work introduces a
novel text-video localization pre-text task to enable fine-grained temporal and
semantic alignment such that the trained model can accurately perceive temporal
boundaries in videos given the text description. Specifically, text-video
localization consists of moment retrieval, which predicts start and end
boundaries in videos given the text description, and text localization which
matches the subset of texts with the video features. To produce temporal
boundaries, frame features in several videos are manually merged into a long
video sequence that interacts with a text sequence. With the localization task,
our method connects the fine-grained frame representations with the word
representations and implicitly distinguishes representations of different
instances in the single modality. Notably, comprehensive experimental results
show that our method significantly improves the state-of-the-art performance on
various benchmarks, covering text-to-video retrieval, video question answering,
video captioning, temporal action localization and temporal moment retrieval.
The code will be released soon.
- Abstract(参考訳): ビデオ言語事前学習モデルは最近、様々なマルチモーダルダウンストリームタスクを大幅に改善した。
これまでの支配的な著作は主に、モダリティを越えたグローバルな特徴整合を達成するために、対照的な学習を採用する。
しかし、ビデオとテキスト間の局所的な関連はモデル化されておらず、特に特定のクエリテキストに対して時間的ビデオ境界を必要とするタスクにおいて、事前学習モデルの一般化を制限する。
本研究は,テキスト記述による映像の時間的境界を正確に知覚できるように,テキスト・ビデオのローカライゼーションプリテキストタスクを導入して,時間的・意味的アライメントを細粒度に実現している。
具体的には、テキスト記述によってビデオの開始と終了の境界を予測するモーメント検索と、テキストのサブセットとビデオ特徴とをマッチングするテキストローカライゼーションで構成される。
時間境界を生成するために、複数のビデオのフレーム機能は、テキストシーケンスと対話する長いビデオシーケンスに手動でマージされる。
ローカライゼーションタスクでは,細粒度フレーム表現と単語表現を結合し,単一モダリティにおける異なるインスタンスの表現を暗黙的に区別する。
特に,本手法は,テキスト間検索,ビデオ質問応答,ビデオキャプション,時間的行動の定位,時間的モーメント検索など,様々なベンチマークにおいて,最先端のパフォーマンスを著しく向上することを示す。
コードはまもなくリリースされる。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。