Fugu-MT 論文翻訳(概要): Grounded Video Caption Generation

論文の概要: Grounded Video Caption Generation

arxiv url: http://arxiv.org/abs/2411.07584v1
Date: Tue, 12 Nov 2024 06:44:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.811833
Title: Grounded Video Caption Generation
Title（参考訳）: グラウンドド・ビデオ・キャプション・ジェネレーション
Authors: Evangelos Kazakos, Cordelia Schmid, Josef Sivic,
Abstract要約: そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
参考スコア（独自算出の注目度）: 74.23767687855279
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose a new task, dataset and model for grounded video caption generation. This task unifies captioning and object grounding in video, where the objects in the caption are grounded in the video via temporally consistent bounding boxes. We introduce the following contributions. First, we present a task definition and a manually annotated test dataset for this task, referred to as GROunded Video Caption Generation (GROC). Second, we introduce a large-scale automatic annotation method leveraging an existing model for grounded still image captioning together with an LLM for summarising frame-level captions into temporally consistent captions in video. Furthermore, we prompt the LLM to track by language -- classifying noun phrases from the frame-level captions into noun phrases of the video-level generated caption. We apply this approach to videos from the HowTo100M dataset, which results in a new large-scale training dataset, called HowToGround, with automatically annotated captions and spatio-temporally consistent bounding boxes with coherent natural language labels. Third, we introduce a new grounded video caption generation model, called VideoGround, and train the model on the new automatically annotated HowToGround dataset. Finally, results of our VideoGround model set the state of the art for the new task of grounded video caption generation. We perform extensive ablations and demonstrate the importance of key technical contributions of our model.
Abstract（参考訳）: 本稿では,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。以下に紹介する。まず,GROunded Video Caption Generation (GROC) と呼ばれるタスク定義と手動アノテートテストデータセットを提案する。第2に,映像中のフレームレベルのキャプションを時間的に一貫したキャプションに要約するLLMとともに,既存のグラウンドド静止画像キャプションモデルを利用した大規模自動アノテーション手法を提案する。さらに、LLMは、フレームレベルのキャプションから名詞句を、ビデオレベルの生成されたキャプションの名詞句に分類する。我々は、ハウト100Mデータセットの動画にこのアプローチを適用し、ハウトGroundと呼ばれる新しい大規模トレーニングデータセットを作成し、自動的に注釈付きキャプションと、コヒーレントな自然言語ラベルを持つ時空間的に一貫したバウンディングボックスを配置する。第3に,ビデオキャプション生成モデルであるVideoGroundを導入し,自動注釈付きHowToGroundデータセット上でモデルをトレーニングする。そして最後に、VoiceGroundモデルの結果が、グラウンドドビデオキャプション生成の新しいタスクの最先端を設定した。我々は、広範囲にわたる改善を行い、我々のモデルの重要な技術的貢献の重要性を実証する。

関連論文リスト

VoCap: Video Object Captioning and Segmentation from Any Prompt [78.90048335805047]
VoCapは、ビデオセグメンテーションと様々なモダリティの迅速な理解を消費するフレキシブルモデルである。プロンプト可能なビデオオブジェクトのセグメンテーション、参照、オブジェクトキャプションに対処する。本モデルでは,表現対象のセグメンテーションについて,最新の結果が得られる。
論文参考訳（メタデータ） (2025-08-29T17:43:58Z)
Large-scale Pre-training for Grounded Video Caption Generation [74.23767687855279]
本稿では,映像中のキャプションとオブジェクトの接地に関する新しいアプローチを提案する。本稿では,個々のフレームにまたがるバウンディングボックスで接地したキャプションを,時間的に密度が高く一貫したバウンディングボックスアノテーションに集約する大規模自動アノテーションを提案する。 iGroundと呼ばれる新しいデータセットを導入し、手動で注釈付けされたキャプションと、密集した時間的接地されたバウンディングボックスを備えた3500本のビデオを紹介した。
論文参考訳（メタデータ） (2025-03-13T18:21:07Z)
Fine-Grained Video Captioning through Scene Graph Consolidation [44.30028794237688]
本稿では,動画からフレームレベルのシーングラフを合成し,キャプション生成の中間表現を得るゼロショットビデオキャプション手法を提案する。提案手法は,まず画像VLMを用いてフレームレベルのキャプションを生成し,それらをシーングラフに変換し,これらのグラフを統合し,包括的なビデオレベルの記述を生成する。
論文参考訳（メタデータ） (2025-02-23T03:59:05Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文参考訳（メタデータ） (2023-12-20T17:44:32Z)
Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文参考訳（メタデータ） (2023-12-01T23:56:00Z)
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文参考訳（メタデータ） (2023-10-07T19:32:55Z)
Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文参考訳（メタデータ） (2023-04-04T19:11:05Z)
Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。 SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文参考訳（メタデータ） (2021-12-02T09:08:09Z)
Partially-supervised novel object captioning leveraging context from paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文参考訳（メタデータ） (2021-09-10T21:31:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。