Fugu-MT 論文翻訳(概要): Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos

論文の概要: Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos

arxiv url: http://arxiv.org/abs/2312.10300v3
Date: Wed, 05 Feb 2025 09:57:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.539722
Title: Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos
Title（参考訳）: Shot2Story: マルチショットビデオの理解のための新しいベンチマーク
Authors: Mingfei Han, Linjie Yang, Xiaojun Chang, Lina Yao, Heng Wang,
Abstract要約: マルチショットビデオ理解ベンチマークShot2Storyには、詳細なショットレベルのキャプション、包括的なビデオ要約、質問応答ペアがある。予備実験では、マルチショットビデオの長大かつ包括的な要約を生成するための課題がいくつか示されている。生成された不完全な要約は、既存のビデオ理解タスクにおいて、すでに競合的なパフォーマンスを達成することができる。
参考スコア（独自算出の注目度）: 58.53311308617818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A short clip of video may contain progression of multiple events and an interesting story line. A human need to capture both the event in every shot and associate them together to understand the story behind it. In this work, we present a new multi-shot video understanding benchmark Shot2Story with detailed shot-level captions, comprehensive video summaries and question-answering pairs. To facilitate better semantic understanding of videos, we provide captions for both visual signals and human narrations. We design several distinct tasks including single-shot video captioning, multi-shot video summarization, and multi-shot video question answering. Preliminary experiments show some challenges to generate a long and comprehensive video summary for multi-shot videos. Nevertheless, the generated imperfect summaries can already achieve competitive performance on existing video understanding tasks such as video question-answering, promoting an under-explored setting of video understanding with detailed summaries.
Abstract（参考訳）: 短いビデオクリップには、複数のイベントの進行と興味深いストーリーラインが含まれているかもしれない。人間は、それぞれのショットで両方のイベントをキャプチャして、背後にあるストーリーを理解するためにそれらを関連付ける必要があります。本研究では,マルチショット映像理解ベンチマークShot2Storyについて,詳細なショットレベルキャプション,包括的ビデオ要約,質問応答ペアを提示する。ビデオのセマンティックな理解を容易にするため、視覚信号と人間のナレーションの両方にキャプションを提供する。シングルショットビデオキャプション、マルチショットビデオ要約、マルチショットビデオ質問応答など、いくつかの異なるタスクを設計する。予備実験では、マルチショットビデオの長大かつ包括的な要約を生成するための課題がいくつか示されている。それでも、生成した不完全な要約は、ビデオ質問回答などの既存のビデオ理解タスクにおいて、既に競合的なパフォーマンスを達成でき、詳細な要約によるビデオ理解の未探索設定を促進することができる。

関連論文リスト

VideoMix: Aggregating How-To Videos for Task-Oriented Learning [36.183779096566276]
VideoMixは、ユーザーがタスク上の複数のビデオから情報を集約することでハウツータスクの全体的理解を得るのを助けるシステムである。 Vision-Language Modelパイプラインによって提供されるVideoMixはこの情報を抽出し、整理し、関連するビデオクリップとともに簡潔なテキスト要約を提示する。
論文参考訳（メタデータ） (2025-03-27T03:43:02Z)
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文参考訳（メタデータ） (2024-12-09T03:41:28Z)
Storyboard guided Alignment for Fine-grained Video Action Recognition [32.02631248389487]
微細なビデオアクション認識は、ビデオテキストマッチング問題として概念化することができる。 i) 異なるグローバルなセマンティクスを持つビデオは、類似したアトミックなアクションや外観を共有し、(ii) ビデオ内のアトミックなアクションは、瞬間的、遅い、あるいは、グローバルなビデオセマンティクスと直接的に関係しない、という2つの観察に基づく多粒度フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-18T07:40:41Z)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。 AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-04T00:13:54Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文参考訳（メタデータ） (2021-05-30T09:28:43Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文参考訳（メタデータ） (2020-05-08T00:28:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。