論文の概要: VidChapters-7M: Video Chapters at Scale
- arxiv url: http://arxiv.org/abs/2309.13952v1
- Date: Mon, 25 Sep 2023 08:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:30:58.676981
- Title: VidChapters-7M: Video Chapters at Scale
- Title(参考訳): vidchapters-7m: 大規模ビデオチャプタ
- Authors: Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid
- Abstract要約: VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。
VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。
VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
- 参考スコア(独自算出の注目度): 110.19323390486775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting long videos into chapters enables users to quickly navigate to the
information of their interest. This important topic has been understudied due
to the lack of publicly released datasets. To address this issue, we present
VidChapters-7M, a dataset of 817K user-chaptered videos including 7M chapters
in total. VidChapters-7M is automatically created from videos online in a
scalable manner by scraping user-annotated chapters and hence without any
additional manual annotation. We introduce the following three tasks based on
this data. First, the video chapter generation task consists of temporally
segmenting the video and generating a chapter title for each segment. To
further dissect the problem, we also define two variants of this task: video
chapter generation given ground-truth boundaries, which requires generating a
chapter title given an annotated video segment, and video chapter grounding,
which requires temporally localizing a chapter given its annotated title. We
benchmark both simple baselines and state-of-the-art video-language models for
these three tasks. We also show that pretraining on VidChapters-7M transfers
well to dense video captioning tasks in both zero-shot and finetuning settings,
largely improving the state of the art on the YouCook2 and ViTT benchmarks.
Finally, our experiments reveal that downstream performance scales well with
the size of the pretraining dataset. Our dataset, code, and models are publicly
available at https://antoyang.github.io/vidchapters.html.
- Abstract(参考訳): 長いビデオを章に分割することで、ユーザーは興味のある情報を素早くナビゲートできる。
この重要なトピックは、公開データセットの欠如のために検討されている。
この問題に対処するために,vidchapters-7mという,合計7m章を含む817kのユーザチャプタビデオのデータセットを提案する。
VidChapters-7Mは、ユーザーが注釈付けした章を削り取ることで、オンラインビデオから自動的にスケーラブルな方法で作成される。
このデータに基づいて以下の3つのタスクを紹介する。
まず、映像章生成タスクは、映像を時間的に分割し、各セグメントの章タイトルを生成する。
さらにこの問題をさらに整理するため,本課題の2つの変種を定式化している: 地上境界を付与するビデオチャプタ生成, 注釈付きビデオセグメントを付与するチャプタタイトルの生成, 注釈付きタイトルを付与するチャプタを時間的ローカライズするビデオチャプタグラウンドニング。
これら3つのタスクに対して,単純なベースラインと最先端のビデオ言語モデルの両方をベンチマークする。
また、VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で高密度な動画キャプションタスクによく対応し、YouCook2とViTTベンチマークの精度を大幅に向上させることを示した。
最後に、実験の結果、ダウンストリームのパフォーマンスは事前トレーニングデータセットのサイズとよく一致していることがわかった。
私たちのデータセット、コード、モデルはhttps://antoyang.github.io/vidchapters.htmlで公開されている。
関連論文リスト
- PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T05:22:39Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Multi-modal Video Chapter Generation [11.658507807110645]
そこで我々は,約10万のユーザ生成ビデオと注釈付き章情報からなる章-Genという新しいデータセットを紹介した。
我々のデータ収集手順は高速でスケーラブルで、追加のマニュアルアノテーションを必要としない。
提案手法は既存の手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-26T13:44:48Z) - Visual Subtitle Feature Enhanced Video Outline Generation [23.831220964676973]
ビデオ理解タスク,すなわちビデオアウトライン生成(VOG)を導入する。
VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。
ビデオアウトライン生成モデル(VSENet)を提案する。
論文 参考訳(メタデータ) (2022-08-24T05:26:26Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。