論文の概要: Large-scale Pre-training for Grounded Video Caption Generation
- arxiv url: http://arxiv.org/abs/2503.10781v2
- Date: Mon, 24 Mar 2025 05:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:34.562133
- Title: Large-scale Pre-training for Grounded Video Caption Generation
- Title(参考訳): グラウンドドビデオキャプション生成のための大規模事前学習
- Authors: Evangelos Kazakos, Cordelia Schmid, Josef Sivic,
- Abstract要約: 本稿では,映像中のキャプションとオブジェクトの接地に関する新しいアプローチを提案する。
本稿では,個々のフレームにまたがるバウンディングボックスで接地したキャプションを,時間的に密度が高く一貫したバウンディングボックスアノテーションに集約する大規模自動アノテーションを提案する。
iGroundと呼ばれる新しいデータセットを導入し、手動で注釈付けされたキャプションと、密集した時間的接地されたバウンディングボックスを備えた3500本のビデオを紹介した。
- 参考スコア(独自算出の注目度): 74.23767687855279
- License:
- Abstract: We propose a novel approach for captioning and object grounding in video, where the objects in the caption are grounded in the video via temporally dense bounding boxes. We introduce the following contributions. First, we present a large-scale automatic annotation method that aggregates captions grounded with bounding boxes across individual frames into temporally dense and consistent bounding box annotations. We apply this approach on the HowTo100M dataset to construct a large-scale pre-training dataset, named HowToGround1M. We also introduce a Grounded Video Caption Generation model, dubbed GROVE, and pre-train the model on HowToGround1M. Second, we introduce a new dataset, called iGround, of 3500 videos with manually annotated captions and dense spatio-temporally grounded bounding boxes. This allows us to measure progress on this challenging problem, as well as to fine-tune our model on this small-scale but high-quality data. Third, we demonstrate that our approach achieves state-of-the-art results on the proposed iGround dataset compared to a number of baselines, as well as on the VidSTG and ActivityNet-Entities datasets. We perform extensive ablations that demonstrate the importance of pre-training using our automatically annotated HowToGround1M dataset followed by fine-tuning on the manually annotated iGround dataset and validate the key technical contributions of our model.
- Abstract(参考訳): 本稿では,映像中のキャプションとオブジェクトの接地に関する新しいアプローチを提案する。
以下に紹介する。
まず,個々のフレームにまたがるバウンディングボックスで接地したキャプションを,時間的に密度が高く一貫したバウンディングボックスアノテーションに集約する大規模自動アノテーションを提案する。
本論文では,HowTo100Mデータセットを用いて,HowToGround1Mという大規模事前学習データセットを構築する。
また、GROVEと呼ばれるグラウンドドビデオキャプチャ生成モデルを導入し、HowToGround1Mで事前トレーニングを行う。
第2に、手動で注釈付けされたキャプションと高密度の時空間境界ボックスを備えた3500本のビデオからなる、iGroundと呼ばれる新しいデータセットを導入しました。
これにより、この課題に関する進捗を計測し、この小規模だが高品質なデータでモデルを微調整することができます。
第3に,提案したiGroundデータセットと,VidSTGおよびActivityNet-Entitiesデータセットを比較した。
自動アノテートしたHowToGround1Mデータセットを使用した事前トレーニングの重要性を実証し、手動アノテートしたiGroundデータセットを微調整し、モデルの重要な技術的コントリビューションを検証する。
関連論文リスト
- GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning [20.210972863275924]
本稿では,1つの粒度データセットの粒度を拡大するために,積分演算と圧縮演算を併用した粒度拡張(GEX)手法を提案する。
IAM(Iterative Approximation Module)を導入し,複数の粒度の動画やテキストを統一された低次元セマンティック空間に埋め込む。
我々は7つのベンチマークデータセットにまたがるビデオタスクの3つのカテゴリに関する作業を評価し、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-10T17:50:53Z) - Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。