論文の概要: VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and
Dataset
- arxiv url: http://arxiv.org/abs/2305.18500v1
- Date: Mon, 29 May 2023 14:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:06:00.007315
- Title: VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and
Dataset
- Title(参考訳): VAST:Vision-Audio-Subtitle-Text Omni-Modality Foundationモデルとデータセット
- Authors: Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Mingzhen Sun, Xinxin
Zhu, Jing Liu
- Abstract要約: 本稿では,VAST-27Mという大規模モダリティビデオキャプションデータセットを自動生成する手法を提案する。
まず、2700万のオープンドメインのビデオクリップを収集し、視覚とオーディオキャプタを別々に訓練して、視覚とオーディオキャプタを生成します。
既成のLarge Language Model (LLM) を用いて生成されたキャプションと,字幕と指導プロンプトを総称モダリティキャプションに統合する。
- 参考スコア(独自算出の注目度): 24.66388327633622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and text have been fully explored in contemporary video-text
foundational models, while other modalities such as audio and subtitles in
videos have not received sufficient attention. In this paper, we resort to
establish connections between multi-modality video tracks, including Vision,
Audio, and Subtitle, and Text by exploring an automatically generated
large-scale omni-modality video caption dataset called VAST-27M. Specifically,
we first collect 27 million open-domain video clips and separately train a
vision and an audio captioner to generate vision and audio captions. Then, we
employ an off-the-shelf Large Language Model (LLM) to integrate the generated
captions, together with subtitles and instructional prompts into omni-modality
captions. Based on the proposed VAST-27M dataset, we train an omni-modality
video-text foundational model named VAST, which can perceive and process
vision, audio, and subtitle modalities from video, and better support various
tasks including vision-text, audio-text, and multi-modal video-text tasks
(retrieval, captioning and QA). Extensive experiments have been conducted to
demonstrate the effectiveness of our proposed VAST-27M corpus and VAST
foundation model. VAST achieves 22 new state-of-the-art results on various
cross-modality benchmarks. Code, model and dataset will be released at
https://github.com/TXH-mercury/VAST.
- Abstract(参考訳): 視覚とテキストは現代のビデオテキストの基礎モデルで十分に研究されてきたが、音声や字幕といった他のモダリティは十分に注目されていない。
本稿では,VAST-27Mと呼ばれる大規模モダリティビデオキャプションデータセットを自動生成することで,視覚,オーディオ,字幕,テキストなどのマルチモダリティビデオトラック間の接続を確立する。
具体的には、2700万のオープンドメインビデオクリップを収集し、視覚とオーディオキャプタを個別にトレーニングして、視覚とオーディオキャプタを生成する。
次に,既成のLarge Language Model (LLM) を用いて,生成されたキャプションと,字幕と指導プロンプトを組み込んだオムニモダリティキャプションを統合する。
提案したVAST-27Mデータセットに基づいて、ビデオから視覚、オーディオ、サブタイトルのモダリティを知覚・処理し、視覚テキスト、オーディオテキスト、マルチモーダルなビデオテキストタスク(検索、キャプション、QA)を含む様々なタスクをより良くサポートする、VASTという全モードのビデオテキスト基盤モデルを訓練する。
提案した VAST-27M コーパスと VAST ファンデーションモデルの有効性を示すため, 大規模な実験を行った。
VASTは、さまざまなモダリティベンチマークで22の新たな最先端結果を達成する。
コード、モデル、データセットはhttps://github.com/TXH-mercury/VASTでリリースされる。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。