Fugu-MT 論文翻訳(概要): StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification

論文の概要: StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification

arxiv url: http://arxiv.org/abs/2411.07076v1
Date: Mon, 11 Nov 2024 15:51:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.511342
Title: StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification
Title（参考訳）: StoryTeller:グローバルなオーディオ・ビジュアル・キャラクタ識別によるロングビデオ記述の改善
Authors: Yichen He, Yuan Lin, Jianchao Wu, Hanchong Zhang, Yuchen Zhang, Ruicheng Le,
Abstract要約: ロングビデオ記述では、記述間のプロットレベルの一貫性など、新しい課題が導入されている。我々は,低レベルな視覚概念と高レベルなプロット情報の両方を取り入れた,長いビデオの濃密な記述を生成するシステムであるStoryTellerを提案する。
参考スコア（独自算出の注目度）: 6.762705315042178
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing large vision-language models (LVLMs) are largely limited to processing short, seconds-long videos and struggle with generating coherent descriptions for extended video spanning minutes or more. Long video description introduces new challenges, such as plot-level consistency across descriptions. To address these, we figure out audio-visual character identification, matching character names to each dialogue, as a key factor. We propose StoryTeller, a system for generating dense descriptions of long videos, incorporating both low-level visual concepts and high-level plot information. StoryTeller uses a multimodal large language model that integrates visual, audio, and text modalities to perform audio-visual character identification on minute-long video clips. The results are then fed into a LVLM to enhance consistency of video description. We validate our approach on movie description tasks and introduce MovieStory101, a dataset with dense descriptions for three-minute movie clips. To evaluate long video descriptions, we create MovieQA, a large set of multiple-choice questions for the MovieStory101 test set. We assess descriptions by inputting them into GPT-4 to answer these questions, using accuracy as an automatic evaluation metric. Experiments show that StoryTeller outperforms all open and closed-source baselines on MovieQA, achieving 9.5% higher accuracy than the strongest baseline, Gemini-1.5-pro, and demonstrating a +15.56% advantage in human side-by-side evaluations. Additionally, incorporating audio-visual character identification from StoryTeller improves the performance of all video description models, with Gemini-1.5-pro and GPT-4o showing relative improvement of 5.5% and 13.0%, respectively, in accuracy on MovieQA.
Abstract（参考訳）: 既存の大規模視覚言語モデル(LVLM)は、短い数秒のビデオの処理に限られており、数分以上に及ぶビデオのコヒーレントな記述の生成に苦慮している。ロングビデオ記述では、記述間のプロットレベルの一貫性など、新しい課題が導入されている。これらの課題に対処するため,音声・視覚的文字識別を重要要素として,対話毎に文字名をマッチングする手法を提案する。我々は,低レベルな視覚概念と高レベルなプロット情報の両方を取り入れた,長いビデオの濃密な記述を生成するシステムであるStoryTellerを提案する。 StoryTellerは、視覚、オーディオ、テキストのモダリティを統合して、数分の動画クリップで音声と視覚の文字識別を行うマルチモーダルな大規模言語モデルを使用している。結果はLVLMに入力され、ビデオ記述の一貫性が向上する。映画記述タスクに対する我々のアプローチを検証し,3分間の映像クリップの濃密な記述を伴うデータセットであるMovieStory101を導入する。長大なビデオ記述を評価するために,MovieStory101テストセットに対して,多数の選択質問セットであるMovieQAを作成する。 GPT-4に入力してこれらの質問に回答し、精度を自動評価指標として評価する。実験の結果、StoryTellerはMovieQAのオープンソースベースラインとクローズドソースベースラインを全て上回り、最強のベースラインであるGemini-1.5-proよりも9.5%高い精度で達成し、人間のサイドバイサイド評価において+15.56%の利点を示した。さらに、StoryTellerから音声-視覚的文字識別を取り入れることで、すべてのビデオ記述モデルの性能が向上し、Gemini-1.5-proとGPT-4oはそれぞれ5.5%と13.0%の相対的な改善を示した。

関連論文リスト

Controllable Hybrid Captioner for Improved Long-form Video Understanding [0.24578723416255746]
ビデオデータは極めて密度が高く、高次元である。テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文参考訳（メタデータ） (2025-07-22T22:09:00Z)
Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison [15.363132825156477]
ビデオ記述は、ビデオ理解を評価するための基本的なタスクであり、空間的・時間的ダイナミクスの深い理解を必要とする。ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、注目すべき制限がある。本稿では,LVLMと人間の理解の相違をより包括的に評価するための新しいベンチマークFIOVAを提案する。
論文参考訳（メタデータ） (2024-10-20T03:59:54Z)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。 AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-04T00:13:54Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。 ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文参考訳（メタデータ） (2024-06-06T17:58:54Z)
Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文参考訳（メタデータ） (2024-04-20T13:15:27Z)
A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。これは、ビデオのリッチさと多種多様な有効な記述を無視している。本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文参考訳（メタデータ） (2023-11-30T18:59:45Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。 YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文参考訳（メタデータ） (2020-11-22T17:33:44Z)
Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文参考訳（メタデータ） (2020-05-08T00:28:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。