論文の概要: MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and
GENeration
- arxiv url: http://arxiv.org/abs/2204.08058v1
- Date: Sun, 17 Apr 2022 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:29:55.057395
- Title: MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and
GENeration
- Title(参考訳): MUGEN:ビデオ音声によるマルチモーダル理解とジェネレーションのためのプレイグラウンド
- Authors: Thomas Hayes, Songyang Zhang, Xi Yin, Guan Pang, Sasha Sheng, Harry
Yang, Songwei Ge, Isabelle Hu, and Devi Parikh
- Abstract要約: マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。
本稿では,オープンソースのプラットフォームゲームCoinRunを用いて収集した大規模ビデオオーディオテキストデータセットMUGENについて述べる。
我々は375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。
- 参考スコア(独自算出の注目度): 46.19536568693307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal video-audio-text understanding and generation can benefit from
datasets that are narrow but rich. The narrowness allows bite-sized challenges
that the research community can make progress on. The richness ensures we are
making progress along the core challenges. To this end, we present a
large-scale video-audio-text dataset MUGEN, collected using the open-sourced
platform game CoinRun [11]. We made substantial modifications to make the game
richer by introducing audio and enabling new interactions. We trained RL agents
with different objectives to navigate the game and interact with 13 objects and
characters. This allows us to automatically extract a large collection of
diverse videos and associated audio. We sample 375K video clips (3.2s each) and
collect text descriptions from human annotators. Each video has additional
annotations that are extracted automatically from the game engine, such as
accurate semantic maps for each frame and templated textual descriptions.
Altogether, MUGEN can help progress research in many tasks in multimodal
understanding and generation. We benchmark representative approaches on tasks
involving video-audio-text retrieval and generation. Our dataset and code are
released at: https://mugen-org.github.io/.
- Abstract(参考訳): マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。
この狭さは、研究コミュニティが前進できる小さな挑戦を可能にします。
豊かさは、コア課題に沿って前進することを保証する。
そこで我々は,オープンソースのプラットフォームゲームCoinRun [11]を用いて収集した大規模ビデオオーディオテキストデータセットMUGENを提案する。
音声を導入し,新たなインタラクションを実現することで,ゲームをよりリッチにするための大幅な修正を行った。
我々はRLエージェントを異なる目的で訓練し、ゲームをナビゲートし、13のオブジェクトやキャラクタと対話した。
これにより、さまざまなビデオと関連するオーディオの大規模なコレクションを自動的に抽出できます。
375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。
各ビデオには、各フレームの正確なセマンティックマップやテンプレート化されたテキスト記述など、ゲームエンジンから自動的に抽出されるアノテーションが追加されている。
総じて、mugenはマルチモーダル理解と生成における多くのタスクの進捗研究に役立つ。
我々は,映像音声の検索と生成に関わるタスクに対する代表的アプローチをベンチマークする。
私たちのデータセットとコードは、https://mugen-org.github.io/でリリースされます。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。
本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。
音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。