論文の概要: TeaserGen: Generating Teasers for Long Documentaries
- arxiv url: http://arxiv.org/abs/2410.05586v2
- Date: Sun, 10 Nov 2024 02:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:43.002731
- Title: TeaserGen: Generating Teasers for Long Documentaries
- Title(参考訳): TeaserGen: 長いドキュメントのためのティーザーを生成する
- Authors: Weihan Xu, Paul Pu Liang, Haven Kim, Julian McAuley, Taylor Berg-Kirkpatrick, Hao-Wen Dong,
- Abstract要約: 1,269の文書集であるDocumentaryNetをティーザーと組み合わせて紹介する。
長文からティーザーを生成するための新しい2段階システムを提案する。
- 参考スコア(独自算出の注目度): 59.8220642722399
- License:
- Abstract: Teasers are an effective tool for promoting content in entertainment, commercial and educational fields. However, creating an effective teaser for long videos is challenging for it requires long-range multimodal modeling on the input videos, while necessitating maintaining audiovisual alignments, managing scene changes and preserving factual accuracy for the output teasers. Due to the lack of a publicly-available dataset, progress along this research direction has been hindered. In this work, we present DocumentaryNet, a collection of 1,269 documentaries paired with their teasers, featuring multimodal data streams of video, speech, music, sound effects and narrations. With DocumentaryNet, we propose a new two-stage system for generating teasers from long documentaries. The proposed TeaserGen system first generates the teaser narration from the transcribed narration of the documentary using a pretrained large language model, and then selects the most relevant visual content to accompany the generated narration through language-vision models. For narration-video matching, we explore two approaches: a pretraining-based model using pretrained contrastive language-vision models and a deep sequential model that learns the mapping between the narrations and visuals. Our experimental results show that the pretraining-based approach is more effective at identifying relevant visual content than directly trained deep autoregressive models.
- Abstract(参考訳): ティーザーはエンターテイメント、商業、教育分野のコンテンツを促進する効果的なツールである。
しかし, 長時間ビデオに有効なティーザーを作成するには, 映像の長距離マルチモーダルモデリングが必要であり, 映像のアライメントの維持, シーンの変化の管理, 実際のティーザーの精度の確保が必要である。
公開されているデータセットが欠如しているため、この研究方向の進展は妨げられている。
本研究では, ビデオ, 音声, 音楽, 音響効果, ナレーションのマルチモーダルなデータストリームを特徴とする1,269の文書集であるDocumentaryNetを紹介する。
本稿では,DocumentaryNetを用いて,長い文書からティーザーを生成するための2段階システムを提案する。
提案するTeaserGenシステムは,まず,事前学習された大言語モデルを用いて,ドキュメンタリーの書き起こしナレーションからティーザーナレーションを生成し,次に,生成されたナレーションに付随する最も関連性の高いビジュアルコンテンツを言語ビジョンモデルにより選択する。
ナレーション・ビデオマッチングでは,事前学習型言語ビジョンモデルを用いた事前学習型モデルと,ナレーションと視覚のマッピングを学習する深部逐次モデルという2つのアプローチを検討する。
実験の結果、事前学習に基づくアプローチは、直接訓練された深部自己回帰モデルよりも、関連性のある視覚的内容を特定するのに効果的であることが示された。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Learning Video Representations from Large Language Models [31.11998135196614]
我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。