論文の概要: AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2406.07091v1
- Date: Tue, 11 Jun 2024 09:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:44:39.003653
- Title: AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding
- Title(参考訳): AutoTVG: 時間的ビデオグラウンドのための新しいビジョン言語事前学習パラダイム
- Authors: Xing Zhang, Jiaxi Gu, Haoyu Zhao, Shicong Wang, Hang Xu, Renjing Pei, Songcen Xu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 時間的ビデオグラウンディング(Temporal Video Grounding)は、言語の説明から見れば、トリミングされていないビデオから瞬間をローカライズすることを目的としている。
従来のパラダイムの欠点を回避するため,TVGの新しいビジョン言語事前学習パラダイムであるAutoTVGを提案する。
- 参考スコア(独自算出の注目度): 90.21119832796136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Video Grounding (TVG) aims to localize a moment from an untrimmed video given the language description. Since the annotation of TVG is labor-intensive, TVG under limited supervision has accepted attention in recent years. The great success of vision-language pre-training guides TVG to follow the traditional "pre-training + fine-tuning" paradigm, however, the pre-training process would suffer from a lack of temporal modeling and fine-grained alignment due to the difference of data nature between pre-train and test. Besides, the large gap between pretext and downstream tasks makes zero-shot testing impossible for the pre-trained model. To avoid the drawbacks of the traditional paradigm, we propose AutoTVG, a new vision-language pre-training paradigm for TVG that enables the model to learn semantic alignment and boundary regression from automatically annotated untrimmed videos. To be specific, AutoTVG consists of a novel Captioned Moment Generation (CMG) module to generate captioned moments from untrimmed videos, and TVGNet with a regression head to predict localization results. Experimental results on Charades-STA and ActivityNet Captions show that, regarding zero-shot temporal video grounding, AutoTVG achieves highly competitive performance with in-distribution methods under out-of-distribution testing, and is superior to existing pre-training frameworks with much less training data.
- Abstract(参考訳): テンポラルビデオグラウンディング(TVG)は、言語記述が与えられたビデオから瞬間をローカライズすることを目的としている。
近年,テレビGのアノテーションは労働集約的であるため,限られた監督下にあるテレビGは注目されている。
視覚言語による事前学習の大きな成功は、TVGに従来の「事前学習+微調整」パラダイムに従うように誘導するが、事前学習プロセスは、事前訓練とテストの間のデータの性質の違いにより、時間的モデリングの欠如と微調整の微調整に悩まされる。
さらに、プレテキストとダウンストリームタスクの間に大きなギャップがあるため、事前訓練されたモデルではゼロショットテストは不可能である。
従来のパラダイムの欠点を回避するため,自動アノテートビデオからセマンティックアライメントと境界回帰を学習できるTVGのための新しいビジョン言語事前学習パラダイムであるAutoTVGを提案する。
具体的に言うと、AutoTVGは、未トリミングビデオからキャプションされた瞬間を生成する新しいCaptioned Moment Generation (CMG)モジュールと、ローカライゼーション結果を予測するリグレッションヘッドを備えたTVGNetで構成されている。
Charades-STAとActivityNet Captionsの実験結果によると、ゼロショットの時間的ビデオグラウンドに関して、AutoTVGは、アウト・オブ・ディストリビューション・テストの下でのイン・ディストリビューション・メソッドと高い競争性能を達成し、トレーニングデータが少ない既存の事前トレーニングフレームワークよりも優れている。
関連論文リスト
- ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT [1.614471032380076]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、未編集のビデオから特定の時間セグメントを特定することを目的としている。
既存のVTGモデルは、広範囲な注釈付きビデオテキストペアで訓練されている。
トレーニングや微調整を伴わないゼロショットVTGのためのGPT方式であるVTG-GPTを提案する。
論文 参考訳(メタデータ) (2024-03-04T14:22:02Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。