論文の概要: Video-CSR: Complex Video Digest Creation for Visual-Language Models
- arxiv url: http://arxiv.org/abs/2310.05060v1
- Date: Sun, 8 Oct 2023 08:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:55:01.572975
- Title: Video-CSR: Complex Video Digest Creation for Visual-Language Models
- Title(参考訳): Video-CSR:ビジュアル言語モデルのための複雑なビデオダイジェスト生成
- Authors: Tingkai Liu, Yunzhe Tao, Haogeng Liu, Qihang Fan, Ding Zhou, Huaibo
Huang, Ran He, Hongxia Yang
- Abstract要約: 実世界のビデオクリップのキャプションや要約を生成する視覚言語モデルの性能を評価するための新しいタスクと人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の4.8KのYouTubeビデオクリップが含まれており、幅広いトピックや興味をカバーしている。
- 参考スコア(独自算出の注目度): 71.66614561702131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel task and human annotated dataset for evaluating the
ability for visual-language models to generate captions and summaries for
real-world video clips, which we call Video-CSR (Captioning, Summarization and
Retrieval). The dataset contains 4.8K YouTube video clips of 20-60 seconds in
duration and covers a wide range of topics and interests. Each video clip
corresponds to 5 independently annotated captions (1 sentence) and summaries
(3-10 sentences). Given any video selected from the dataset and its
corresponding ASR information, we evaluate visual-language models on either
caption or summary generation that is grounded in both the visual and auditory
content of the video. Additionally, models are also evaluated on caption- and
summary-based retrieval tasks, where the summary-based retrieval task requires
the identification of a target video given excerpts of a corresponding summary.
Given the novel nature of the paragraph-length video summarization task, we
perform extensive comparative analyses of different existing evaluation metrics
and their alignment with human preferences. Finally, we propose a foundation
model with competitive generation and retrieval capabilities that serves as a
baseline for the Video-CSR task. We aim for Video-CSR to serve as a useful
evaluation set in the age of large language models and complex multi-modal
tasks.
- Abstract(参考訳): 本稿では,ビデオCSR(Captioning, Summarization, Retrieval)と呼ばれる実世界のビデオクリップのキャプションや要約を生成する視覚言語モデルの性能を評価するための,新しいタスクと人間の注釈付きデータセットを提案する。
データセットには20~60秒の4.8kyoutubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
各ビデオクリップは、独立して注釈付きキャプション(1文)と要約(3-10文)に対応する。
データセットとそれに対応するasr情報から選択されたビデオが与えられた場合、映像の視覚と聴覚の両方に基礎を置くキャプションまたは要約生成の視覚言語モデルを評価する。
さらに、要約に基づく検索タスクでは、対応する要約の抜粋が与えられた対象映像の識別を要し、キャプションに基づく検索タスクや要約に基づく検索タスクでもモデルを評価する。
段落長映像要約タスクの斬新な性質を考慮し,既存の評価指標と人間の嗜好との整合性の比較分析を行った。
最後に,ビデオCSRタスクのベースラインとして機能する,競争力のある生成と検索機能を備えた基礎モデルを提案する。
我々は,大規模言語モデルや複雑なマルチモーダルタスクの時代において,ビデオCSRが有用な評価セットとして機能することを目指している。
関連論文リスト
- Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [67.03643944475712]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。