論文の概要: Spatiotemporally Discriminative Video-Language Pre-Training with Text
Grounding
- arxiv url: http://arxiv.org/abs/2303.16341v1
- Date: Tue, 28 Mar 2023 22:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 16:32:14.707405
- Title: Spatiotemporally Discriminative Video-Language Pre-Training with Text
Grounding
- Title(参考訳): テキストグラウンドティングによる時空間識別型ビデオランゲージ事前学習
- Authors: Yuanhao Xiong, Long Zhao, Boqing Gong, Ming-Hsuan Yang, Florian
Schroff, Ting Liu, Cho-Jui Hsieh, Liangzhe Yuan
- Abstract要約: 本稿では,識別的特徴を学習するための簡易かつ効果的なビデオ言語事前学習フレームワークG-ViLMを提案する。
学習基盤と時間的グループ化を含む2つの新しいデザインは、局所的な地域名詞のアライメントと時間的認識の特徴を同時に促進する。
G-ViLMは、すべての評価されたタスク、特にゼロショットMSR-VTT検索において65.1のR@10を競合的に実行し、最先端の手法よりも9%高い。
- 参考スコア(独自算出の注目度): 139.9673751901075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of existing video-language pre-training methods focus on instance-level
alignment between video clips and captions via global contrastive learning but
neglect rich fine-grained local information, which is of importance to
downstream tasks requiring temporal localization and semantic reasoning. In
this work, we propose a simple yet effective video-language pre-training
framework, namely G-ViLM, to learn discriminative spatiotemporal features. Two
novel designs involving spatiotemporal grounding and temporal grouping promote
learning local region-noun alignment and temporal-aware features
simultaneously. Specifically, spatiotemporal grounding aggregates semantically
similar video tokens and aligns them with noun phrases extracted from the
caption to promote local region-noun correspondences. Moreover, temporal
grouping leverages cut-and-paste to manually create temporal scene changes and
then learns distinguishable features from different scenes. Comprehensive
evaluations demonstrate that G-ViLM performs favorably against existing
approaches on four representative downstream tasks, covering text-video
retrieval, video question answering, video action recognition and temporal
action localization. G-ViLM performs competitively on all evaluated tasks and
in particular achieves R@10 of 65.1 on zero-shot MSR-VTT retrieval, over 9%
higher than the state-of-the-art method.
- Abstract(参考訳): 既存のビデオ言語事前学習手法のほとんどは、グローバルコントラスト学習によるビデオクリップとキャプションのインスタンスレベルのアライメントに重点を置いているが、リッチなきめ細かな局所情報を無視している。
本研究では,識別時空間の特徴を学習するための,ビデオ言語事前学習フレームワークG-ViLMを提案する。
時空間的接地と時空間的グルーピングを含む2つの新しいデザインは,学習地域・名詞のアライメントと時間的認識の特徴を同時に促進する。
具体的には、時空間的接頭辞は意味的に類似したビデオトークンを集約し、キャプションから抽出された名詞句とアライメントし、局所的な地域名詞対応を促進する。
さらに、時間的グループ化はカット・アンド・ペーストを利用して、時間的シーンの変更を手作業で生成し、異なるシーンから識別可能な特徴を学習する。
総合評価の結果、G-ViLMは、テキストビデオ検索、ビデオ質問応答、ビデオ行動認識、時間的行動ローカライゼーションを含む4つの下流タスクにおいて、既存のアプローチに対して好適に機能することが示された。
G-ViLMは評価された全てのタスクに対して競争力を発揮し、特にゼロショットMSR-VTT検索において65.1のR@10を達成する。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - PcmNet: Position-Sensitive Context Modeling Network for Temporal Action
Localization [11.685362686431446]
本論文では,位置情報と意味情報の両方を組み込んだ時間的位置感応型コンテキストモデリング手法を提案する。
THUMOS-14とActivityNet-1.3の2つの挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-09T07:34:01Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。