論文の概要: Learning Audio-Video Modalities from Image Captions
- arxiv url: http://arxiv.org/abs/2204.00679v1
- Date: Fri, 1 Apr 2022 19:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:33:49.260422
- Title: Learning Audio-Video Modalities from Image Captions
- Title(参考訳): 映像キャプションによる映像モダリティの学習
- Authors: Arsha Nagrani, Paul Hongsuck Seo, Bryan Seybold, Anja Hauth, Santiago
Manen, Chen Sun and Cordelia Schmid
- Abstract要約: テキストビデオとテキストオーディオ検索における大きな課題は、大規模なトレーニングデータがないことである。
画像キャプションデータセットからビデオクリップへのキャプションを手作業なしで転送する新しいビデオマイニングパイプラインを提案する。
このデータに基づくマルチモーダル変換モデルによるトレーニングは、ビデオ検索やビデオキャプションの競合性能、マッチング、さらには20倍のクリップでHowTo100Mの事前トレーニングよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 62.772232865072745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in text-video and text-audio retrieval is the lack of
large-scale training data. This is unlike image-captioning, where datasets are
in the order of millions of samples. To close this gap we propose a new video
mining pipeline which involves transferring captions from image captioning
datasets to video clips with no additional manual effort. Using this pipeline,
we create a new large-scale, weakly labelled audio-video captioning dataset
consisting of millions of paired clips and captions. We show that training a
multimodal transformed based model on this data achieves competitive
performance on video retrieval and video captioning, matching or even
outperforming HowTo100M pretraining with 20x fewer clips. We also show that our
mined clips are suitable for text-audio pretraining, and achieve state of the
art results for the task of audio retrieval.
- Abstract(参考訳): テキストビデオとテキストオーディオ検索における大きな課題は、大規模トレーニングデータの欠如である。
これは、データセットが数百万のサンプルの順番にあるイメージキャプチャとは異なります。
このギャップを埋めるために,画像キャプションデータセットからビデオクリップへのキャプションを,手作業による追加作業なしで転送する,新たなビデオマイニングパイプラインを提案する。
このパイプラインを使って、数百万のクリップとキャプションからなる、新しい大規模で弱いラベル付きオーディオビデオキャプションデータセットを作成します。
このデータに基づくマルチモーダルトランスフォーメーションモデルのトレーニングは,ビデオ検索や動画キャプション,マッチング,さらには20倍のクリップでhowto100mの事前トレーニングに匹敵するパフォーマンスを実現している。
また,マイニングしたクリップは,テキスト音声の事前学習に適しており,音声検索の課題に対して,芸術的な結果が得られていることを示す。
関連論文リスト
- HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。