論文の概要: MERLOT: Multimodal Neural Script Knowledge Models
- arxiv url: http://arxiv.org/abs/2106.02636v1
- Date: Fri, 4 Jun 2021 17:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:26:19.134305
- Title: MERLOT: Multimodal Neural Script Knowledge Models
- Title(参考訳): MERLOT: マルチモーダルなニューラルスクリプト知識モデル
- Authors: Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park,
Jize Cao, Ali Farhadi, Yejin Choi
- Abstract要約: 我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
- 参考スコア(独自算出の注目度): 74.05631672657452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans, we understand events in the visual world contextually, performing
multimodal reasoning across time to make inferences about the past, present,
and future. We introduce MERLOT, a model that learns multimodal script
knowledge by watching millions of YouTube videos with transcribed speech -- in
an entirely label-free, self-supervised manner. By pretraining with a mix of
both frame-level (spatial) and video-level (temporal) objectives, our model not
only learns to match images to temporally corresponding words, but also to
contextualize what is happening globally over time. As a result, MERLOT
exhibits strong out-of-the-box representations of temporal commonsense, and
achieves state-of-the-art performance on 12 different video QA datasets when
finetuned. It also transfers well to the world of static images, allowing
models to reason about the dynamic context behind visual scenes. On Visual
Commonsense Reasoning, MERLOT answers questions correctly with 80.6% accuracy,
outperforming state-of-the-art models of similar size by over 3%, even those
that make heavy use of auxiliary supervised data (like object bounding boxes).
Ablation analyses demonstrate the complementary importance of: 1) training on
videos versus static images; 2) scaling the magnitude and diversity of the
pretraining video corpus; and 3) using diverse objectives that encourage
full-stack multimodal reasoning, from the recognition to cognition level.
- Abstract(参考訳): 人間として、私たちは視覚の世界における出来事を文脈的に理解し、過去、現在、未来について推測するために時間にわたって多モーダルな推論を行う。
私たちは、何百万ものyoutubeビデオを転写した音声で視聴することで、マルチモーダルなスクリプトの知識を学習するモデルmerlotを紹介します。
フレームレベル(空間的)とビデオレベル(時間的)の両方の目標を前もって訓練することで、我々のモデルは、画像と時間に対応する単語とのマッチングだけでなく、時間とともに世界中で起こっていることをコンテキスト化するためにも学習します。
その結果、MERLOTは時間的コモンセンスの強力なアウトオブボックス表現を示し、微調整時に12種類のビデオQAデータセット上で最先端のパフォーマンスを達成する。
また、静的な画像の世界にもうまく移行し、モデルが視覚的なシーンの背後にあるダイナミックなコンテキストを判断できるようにします。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、オブジェクト境界ボックスのような補助的教師付きデータを多用する者でさえ、同じ大きさの最先端のモデルよりも3%以上優れている。
アブレーション分析は,1)ビデオ対静的画像のトレーニング,2)プリトレーニングビデオコーパスの大きさと多様性のスケーリング,3)フルスタックのマルチモーダル推論を奨励する多様な目的の認識から認知レベルまで,補完的な重要性を示している。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。
本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文 参考訳(メタデータ) (2021-05-04T14:16:55Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。