論文の概要: Contrastive Language-Action Pre-training for Temporal Localization
- arxiv url: http://arxiv.org/abs/2204.12293v1
- Date: Tue, 26 Apr 2022 13:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:29:22.211298
- Title: Contrastive Language-Action Pre-training for Temporal Localization
- Title(参考訳): 時間的局所化のためのコントラスト言語アクション事前学習
- Authors: Mengmeng Xu, Erhan Gundogdu, Maksim Lapin, Bernard Ghanem, Michael
Donoser, Loris Bazzani
- Abstract要約: ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
- 参考スコア(独自算出の注目度): 64.34349213254312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form video understanding requires designing approaches that are able to
temporally localize activities or language. End-to-end training for such tasks
is limited by the compute device memory constraints and lack of temporal
annotations at large-scale. These limitations can be addressed by pre-training
on large datasets of temporally trimmed videos supervised by class annotations.
Once the video encoder is pre-trained, it is common practice to freeze it
during fine-tuning. Therefore, the video encoder does not learn temporal
boundaries and unseen classes, causing a domain gap with respect to the
downstream tasks. Moreover, using temporally trimmed videos prevents to capture
the relations between different action categories and the background context in
a video clip which results in limited generalization capacity. To address these
limitations, we propose a novel post-pre-training approach without freezing the
video encoder which leverages language. We introduce a masked contrastive
learning loss to capture visio-linguistic relations between activities,
background video clips and language in the form of captions. Our experiments
show that the proposed approach improves the state-of-the-art on temporal
action localization, few-shot temporal action localization, and video language
grounding tasks.
- Abstract(参考訳): ロングフォームビデオ理解は、時間的に活動や言語をローカライズできるアプローチを設計する必要がある。
このようなタスクに対するエンドツーエンドのトレーニングは、計算装置のメモリ制約と大規模な時間アノテーションの欠如によって制限される。
これらの制限は、クラスアノテーションによって監視された時間的トリミングビデオの大規模なデータセットを事前トレーニングすることで対処できる。
ビデオエンコーダが事前トレーニングされると、微調整中に凍結することが一般的である。
したがって、ビデオエンコーダは、時間的境界や見当たらないクラスを学習せず、ダウンストリームタスクに関してドメインギャップを引き起こす。
さらに、時間的トリミングビデオを使用することで、ビデオクリップ内の異なるアクションカテゴリと背景コンテキストの関係を捉えることができ、一般化能力が制限される。
これらの制約に対処するために,言語を利用したビデオエンコーダを凍結することなく,新しい事前学習手法を提案する。
そこで本研究では,アクティベーション,背景映像,言語の関係をキャプション形式で捉えるために,マスキングによるコントラスト学習ロスを導入する。
実験の結果,提案手法は,時間的行動の定位,短時間の時間的行動定位,ビデオ言語接地作業の状況を改善した。
関連論文リスト
- Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。