論文の概要: Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos
- arxiv url: http://arxiv.org/abs/2312.10300v1
- Date: Sat, 16 Dec 2023 03:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:28:23.046342
- Title: Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos
- Title(参考訳): Shot2Story20K: マルチショットビデオの理解のための新しいベンチマーク
- Authors: Mingfei Han, Xiaojun Chang, Heng Wang, Linjie Yang
- Abstract要約: マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
- 参考スコア(独自算出の注目度): 58.13927287437394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A short clip of video may contain progression of multiple events and an
interesting story line. A human need to capture both the event in every shot
and associate them together to understand the story behind it. In this work, we
present a new multi-shot video understanding benchmark Shot2Story20K with
detailed shot-level captions and comprehensive video summaries. To facilitate
better semantic understanding of videos, we provide captions for both visual
signals and human narrations. We design several distinct tasks including
single-shot video and narration captioning, multi-shot video summarization, and
video retrieval with shot descriptions. Preliminary experiments show some
challenges to generate a long and comprehensive video summary. Nevertheless,
the generated imperfect summaries can already significantly boost the
performance of existing video understanding tasks such as video
question-answering, promoting an under-explored setting of video understanding
with detailed summaries.
- Abstract(参考訳): 短いビデオクリップには、複数のイベントの進行と興味深いストーリーラインが含まれている。
人間はすべてのショットでイベントをキャプチャし、その背後にあるストーリーを理解するためにそれらを関連付ける必要があります。
本稿では,マルチショット映像理解ベンチマークShot2Story20Kについて紹介する。
映像の意味理解を容易にするために,視覚信号と人間のナレーションの両方にキャプションを提供する。
単発ビデオやナレーションキャプション,マルチショットビデオ要約,ショット記述によるビデオ検索など,さまざまなタスクを設計する。
予備実験は、長く包括的なビデオ要約を生成するためのいくつかの課題を示している。
それでも、生成した不完全な要約は、ビデオ質問回答などの既存のビデオ理解タスクのパフォーマンスを著しく向上させ、詳細な要約によるビデオ理解の未探索設定を促進することができる。
関連論文リスト
- Storyboard guided Alignment for Fine-grained Video Action Recognition [32.02631248389487]
微細なビデオアクション認識は、ビデオテキストマッチング問題として概念化することができる。
i) 異なるグローバルなセマンティクスを持つビデオは、類似したアトミックなアクションや外観を共有し、(ii) ビデオ内のアトミックなアクションは、瞬間的、遅い、あるいは、グローバルなビデオセマンティクスと直接的に関係しない、という2つの観察に基づく多粒度フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:40:41Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。