論文の概要: Grounded Video Caption Generation
- arxiv url: http://arxiv.org/abs/2411.07584v1
- Date: Tue, 12 Nov 2024 06:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:22.417208
- Title: Grounded Video Caption Generation
- Title(参考訳): グラウンドド・ビデオ・キャプション・ジェネレーション
- Authors: Evangelos Kazakos, Cordelia Schmid, Josef Sivic,
- Abstract要約: そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 74.23767687855279
- License:
- Abstract: We propose a new task, dataset and model for grounded video caption generation. This task unifies captioning and object grounding in video, where the objects in the caption are grounded in the video via temporally consistent bounding boxes. We introduce the following contributions. First, we present a task definition and a manually annotated test dataset for this task, referred to as GROunded Video Caption Generation (GROC). Second, we introduce a large-scale automatic annotation method leveraging an existing model for grounded still image captioning together with an LLM for summarising frame-level captions into temporally consistent captions in video. Furthermore, we prompt the LLM to track by language -- classifying noun phrases from the frame-level captions into noun phrases of the video-level generated caption. We apply this approach to videos from the HowTo100M dataset, which results in a new large-scale training dataset, called HowToGround, with automatically annotated captions and spatio-temporally consistent bounding boxes with coherent natural language labels. Third, we introduce a new grounded video caption generation model, called VideoGround, and train the model on the new automatically annotated HowToGround dataset. Finally, results of our VideoGround model set the state of the art for the new task of grounded video caption generation. We perform extensive ablations and demonstrate the importance of key technical contributions of our model.
- Abstract(参考訳): 本稿では,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
以下に紹介する。
まず,GROunded Video Caption Generation (GROC) と呼ばれるタスク定義と手動アノテートテストデータセットを提案する。
第2に,映像中のフレームレベルのキャプションを時間的に一貫したキャプションに要約するLLMとともに,既存のグラウンドド静止画像キャプションモデルを利用した大規模自動アノテーション手法を提案する。
さらに、LLMは、フレームレベルのキャプションから名詞句を、ビデオレベルの生成されたキャプションの名詞句に分類する。
我々は、ハウト100Mデータセットの動画にこのアプローチを適用し、ハウトGroundと呼ばれる新しい大規模トレーニングデータセットを作成し、自動的に注釈付きキャプションと、コヒーレントな自然言語ラベルを持つ時空間的に一貫したバウンディングボックスを配置する。
第3に,ビデオキャプション生成モデルであるVideoGroundを導入し,自動注釈付きHowToGroundデータセット上でモデルをトレーニングする。
そして最後に、VoiceGroundモデルの結果が、グラウンドドビデオキャプション生成の新しいタスクの最先端を設定した。
我々は、広範囲にわたる改善を行い、我々のモデルの重要な技術的貢献の重要性を実証する。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。