論文の概要: MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound
- arxiv url: http://arxiv.org/abs/2201.02639v1
- Date: Fri, 7 Jan 2022 19:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 12:07:50.014866
- Title: MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound
- Title(参考訳): MERLOT Reserve:視覚と言語と音によるニューラルスクリプトの知識
- Authors: Rowan Zellers and Jiasen Lu and Ximing Lu and Youngjae Yu and Yanpeng
Zhao and Mohammadreza Salehi and Aditya Kusupati and Jack Hessel and Ali
Farhadi and Yejin Choi
- Abstract要約: MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
- 参考スコア(独自算出の注目度): 90.1857707251566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As humans, we navigate the world through all our senses, using perceptual
input from each one to correct the others. We introduce MERLOT Reserve, a model
that represents videos jointly over time -- through a new training objective
that learns from audio, subtitles, and video frames. Given a video, we replace
snippets of text and audio with a MASK token; the model learns by choosing the
correct masked-out snippet. Our objective learns faster than alternatives, and
performs well at scale: we pretrain on 20 million YouTube videos.
Empirical results show that MERLOT Reserve learns strong representations
about videos through all constituent modalities. When finetuned, it sets a new
state-of-the-art on both VCR and TVQA, outperforming prior work by 5% and 7%
respectively. Ablations show that both tasks benefit from audio pretraining --
even VCR, a QA task centered around images (without sound). Moreover, our
objective enables out-of-the-box prediction, revealing strong multimodal
commonsense understanding. In a fully zero-shot setting, our model obtains
competitive results on four video understanding tasks, even outperforming
supervised approaches on the recently proposed Situated Reasoning (STAR)
benchmark.
We analyze why incorporating audio leads to better vision-language
representations, suggesting significant opportunities for future research. We
conclude by discussing ethical and societal implications of multimodal
pretraining.
- Abstract(参考訳): 人間として、私たちは世界のあらゆる感覚をナビゲートし、それぞれから知覚的な入力を使って他のものを修正します。
MERLOT Reserveは、音声、字幕、ビデオフレームから学習する新たなトレーニング目標を通じて、時間の経過とともに動画を共同で表現するモデルである。
ビデオの場合、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択することで学習する。
私たちの目標は、代替手段よりも速く学習し、スケール性も高く、2000万本のYouTubeビデオを事前トレーニングしています。
実験結果から,MERLOT Reserveはすべての構成モダリティを通じて,ビデオに関する強力な表現を学習していることがわかった。
微調整すると、VCRとTVQAの両方に新しい最先端技術が設定され、それぞれ5%と7%の先行作業を上回っている。
アブレーションは、両方のタスクが、(音のない)画像を中心としたQAタスクであるVCRであっても、オーディオ事前トレーニングの恩恵を受けていることを示している。
さらに,本研究の目的は,マルチモーダル・コモンセンスの強い理解を明らかにすることで,既定予測を可能にすることである。
完全ゼロショット設定では、4つのビデオ理解タスクの競合結果が得られ、最近提案されたSituated Reasoning(STAR)ベンチマークでは教師付きアプローチよりも優れている。
音声を取り入れることで視覚言語表現が向上する理由を分析し,今後の研究の機会を示唆する。
我々は、マルチモーダル事前訓練の倫理的および社会的意味を議論することで結論付ける。
関連論文リスト
- video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。