Fugu-MT 論文翻訳(概要): Zero-Shot Long-Form Video Understanding through Screenplay

論文の概要: Zero-Shot Long-Form Video Understanding through Screenplay

arxiv url: http://arxiv.org/abs/2406.17309v1
Date: Tue, 25 Jun 2024 06:42:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 15:21:33.683877
Title: Zero-Shot Long-Form Video Understanding through Screenplay
Title（参考訳）: スクリーンプレイによるゼロショット長ビデオ理解
Authors: Yongliang Wu, Bozheng Li, Jiawang Cao, Wenbo Zhu, Yi Lu, Weiheng Chi, Chuyun Xie, Haolin Zheng, Ziyue Su, Jay Wu, Xu Yang,
Abstract要約: MM-Screenplayerはマルチモーダル認識機能を備えた高度なビデオ理解システムである。 MM-ScreenplayerはCVPR'2024のLong-form VidEo Understanding (LOVEU) Track 1 Challengeで最高スコア87.5%を獲得した。
参考スコア（独自算出の注目度）: 5.216784787484923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Long-form Video Question-Answering task requires the comprehension and analysis of extended video content to respond accurately to questions by utilizing both temporal and contextual information. In this paper, we present MM-Screenplayer, an advanced video understanding system with multi-modal perception capabilities that can convert any video into textual screenplay representations. Unlike previous storytelling methods, we organize video content into scenes as the basic unit, rather than just visually continuous shots. Additionally, we developed a ``Look Back'' strategy to reassess and validate uncertain information, particularly targeting breakpoint mode. MM-Screenplayer achieved highest score in the CVPR'2024 LOng-form VidEo Understanding (LOVEU) Track 1 Challenge, with a global accuracy of 87.5% and a breakpoint accuracy of 68.8%.
Abstract（参考訳）: 長文ビデオ質問応答タスクでは,時間的情報と文脈的情報の両方を利用して,映像コンテンツの理解と分析を正確に行う必要がある。本稿では,マルチモーダル認識機能を備えた高度な映像理解システムMM-Screenplayerについて述べる。従来のストーリーテリング手法とは異なり、映像コンテンツを視覚的に連続した撮影ではなく、基本単位としてシーンに整理する。さらに、不確実な情報、特にブレークポイントモードをターゲットとして再評価し、検証する `Look Back' 戦略を開発しました。 MM-ScreenplayerはCVPR'2024のLong-form VidEo Understanding (LOVEU) Track 1 Challengeで最高スコアを獲得し、世界的精度は87.5%、ブレークポイント精度は68.8%だった。

関連論文リスト

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal Videos [27.678107532472275]
本稿では,長大な講義とニュースビデオからなるデータセットについて紹介する。近年のLarge Language Models(LLM)の進歩は、簡潔で情報的なコンテンツをキャプチャすることを約束している。我々は,長大なマルチモーダルビデオデータセットを包括的に理解するための,迅速なエンジニアリング手法の探求を提唱する。
論文参考訳（メタデータ） (2025-03-11T11:47:48Z)
Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文参考訳（メタデータ） (2024-12-09T03:41:28Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
DrVideo: Document Retrieval Based Long Video Understanding [44.34473173458403]
DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
論文参考訳（メタデータ） (2024-06-18T17:59:03Z)
VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。 VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。 19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文参考訳（メタデータ） (2024-06-17T08:09:00Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文参考訳（メタデータ） (2023-12-16T03:17:30Z)
MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文参考訳（メタデータ） (2023-12-08T03:33:38Z)
Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文参考訳（メタデータ） (2023-10-19T13:26:02Z)
Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文参考訳（メタデータ） (2022-08-01T15:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。