論文の概要: Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos
- arxiv url: http://arxiv.org/abs/2312.10300v3
- Date: Wed, 05 Feb 2025 09:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 18:00:40.597130
- Title: Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos
- Title(参考訳): Shot2Story: マルチショットビデオの理解のための新しいベンチマーク
- Authors: Mingfei Han, Linjie Yang, Xiaojun Chang, Lina Yao, Heng Wang,
- Abstract要約: マルチショットビデオ理解ベンチマークShot2Storyには、詳細なショットレベルのキャプション、包括的なビデオ要約、質問応答ペアがある。
予備実験では、マルチショットビデオの長大かつ包括的な要約を生成するための課題がいくつか示されている。
生成された不完全な要約は、既存のビデオ理解タスクにおいて、すでに競合的なパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 58.53311308617818
- License:
- Abstract: A short clip of video may contain progression of multiple events and an interesting story line. A human need to capture both the event in every shot and associate them together to understand the story behind it. In this work, we present a new multi-shot video understanding benchmark Shot2Story with detailed shot-level captions, comprehensive video summaries and question-answering pairs. To facilitate better semantic understanding of videos, we provide captions for both visual signals and human narrations. We design several distinct tasks including single-shot video captioning, multi-shot video summarization, and multi-shot video question answering. Preliminary experiments show some challenges to generate a long and comprehensive video summary for multi-shot videos. Nevertheless, the generated imperfect summaries can already achieve competitive performance on existing video understanding tasks such as video question-answering, promoting an under-explored setting of video understanding with detailed summaries.
- Abstract(参考訳): 短いビデオクリップには、複数のイベントの進行と興味深いストーリーラインが含まれているかもしれない。
人間は、それぞれのショットで両方のイベントをキャプチャして、背後にあるストーリーを理解するためにそれらを関連付ける必要があります。
本研究では,マルチショット映像理解ベンチマークShot2Storyについて,詳細なショットレベルキャプション,包括的ビデオ要約,質問応答ペアを提示する。
ビデオのセマンティックな理解を容易にするため、視覚信号と人間のナレーションの両方にキャプションを提供する。
シングルショットビデオキャプション、マルチショットビデオ要約、マルチショットビデオ質問応答など、いくつかの異なるタスクを設計する。
予備実験では、マルチショットビデオの長大かつ包括的な要約を生成するための課題がいくつか示されている。
それでも、生成した不完全な要約は、ビデオ質問回答などの既存のビデオ理解タスクにおいて、既に競合的なパフォーマンスを達成でき、詳細な要約によるビデオ理解の未探索設定を促進することができる。
関連論文リスト
- Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。
既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。
長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文 参考訳(メタデータ) (2024-12-09T03:41:28Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。