論文の概要: MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
- arxiv url: http://arxiv.org/abs/2407.20962v1
- Date: Tue, 30 Jul 2024 16:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:30:51.611329
- Title: MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
- Title(参考訳): MMTrail: 言語と音楽の説明付きマルチモーダルトレーサビデオデータセット
- Authors: Xiaowei Chi, Yatian Wang, Aosong Cheng, Pengjun Fang, Zeyue Tian, Yingqing He, Zhaoyang Liu, Xingqun Qi, Jiahao Pan, Rongyu Zhang, Mengfei Li, Ruibin Yuan, Yanbing Jiang, Wei Xue, Wenhan Luo, Qifeng Chen, Shanghang Zhang, Qifeng Liu, Yike Guo,
- Abstract要約: MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
- 参考スコア(独自算出の注目度): 69.9122231800796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive multi-modality datasets play a significant role in facilitating the success of large video-language models. However, current video-language datasets primarily provide text descriptions for visual frames, considering audio to be weakly related information. They usually overlook exploring the potential of inherent audio-visual correlation, leading to monotonous annotation within each modality instead of comprehensive and precise descriptions. Such ignorance results in the difficulty of multiple cross-modality studies. To fulfill this gap, we present MMTrail, a large-scale multi-modality video-language dataset incorporating more than 20M trailer clips with visual captions, and 2M high-quality clips with multimodal captions. Trailers preview full-length video works and integrate context, visual frames, and background music. In particular, the trailer has two main advantages: (1) the topics are diverse, and the content characters are of various types, e.g., film, news, and gaming. (2) the corresponding background music is custom-designed, making it more coherent with the visual context. Upon these insights, we propose a systemic captioning framework, achieving various modality annotations with more than 27.1k hours of trailer videos. Here, to ensure the caption retains music perspective while preserving the authority of visual context, we leverage the advanced LLM to merge all annotations adaptively. In this fashion, our MMtrail dataset potentially paves the path for fine-grained large multimodal-language model training. In experiments, we provide evaluation metrics and benchmark results on our dataset, demonstrating the high quality of our annotation and its effectiveness for model training.
- Abstract(参考訳): 大規模なマルチモダリティデータセットは、大規模なビデオ言語モデルの成功を促進する上で重要な役割を果たす。
しかし、現在のビデオ言語データセットは、音声が弱い関連情報であることを考慮して、主に視覚フレームのテキスト記述を提供する。
彼らは通常、固有のオーディオと視覚の相関の可能性を探り、包括的で正確な記述ではなく、各モダリティ内で単調なアノテーションをもたらす。
このような無知は、複数のモダリティ研究の難しさをもたらす。
このギャップを埋めるため、MMTrailは、ビジュアルキャプション付き2000万本以上のトレーラークリップと、マルチモーダルキャプション付き2万本以上の高品質クリップを組み込んだ大規模なマルチモーダルビデオ言語データセットである。
トレーラーはフル長のビデオ作品をプレビューし、コンテキスト、ビジュアルフレーム、バックグラウンド音楽を統合する。
特に、トレーラーには、(1)トピックは多様であり、コンテンツキャラクタは、例えば、映画、ニュース、ゲームなど、多種多様である。
2) 対応する背景音楽はカスタム設計され,視覚的コンテキストとの一貫性が向上する。
これらの知見に基づき,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
ここでは,視覚的文脈の権威を保ちながら音楽の視点を確実に保ちつつ,全てのアノテーションを適応的にマージする高度LLMを活用する。
このようにして、我々のMMtrailデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
実験では,データセット上で評価指標とベンチマーク結果を提供し,アノテーションの高品質さとモデルトレーニングの有効性を実証した。
関連論文リスト
- Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and
Dataset [17.927825332032477]
本稿では,VAST-27Mという大規模モダリティビデオキャプションデータセットを自動生成する手法を提案する。
まず、2700万のオープンドメインのビデオクリップを収集し、視覚とオーディオキャプタを別々に訓練して、視覚とオーディオキャプタを生成します。
既成のLarge Language Model (LLM) を用いて生成されたキャプションと,字幕と指導プロンプトを総称モダリティキャプションに統合する。
論文 参考訳(メタデータ) (2023-05-29T14:34:50Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval [34.343617836027725]
本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
論文 参考訳(メタデータ) (2022-08-16T10:51:37Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。