論文の概要: Mirasol3B: A Multimodal Autoregressive model for time-aligned and
contextual modalities
- arxiv url: http://arxiv.org/abs/2311.05698v2
- Date: Mon, 13 Nov 2023 14:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 11:09:28.747526
- Title: Mirasol3B: A Multimodal Autoregressive model for time-aligned and
contextual modalities
- Title(参考訳): mirasol3b:時間整合および文脈的モダリティのためのマルチモーダル自己回帰モデル
- Authors: AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor
Gomes, Anelia Angelova
- Abstract要約: マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
- 参考スコア(独自算出の注目度): 71.94122309290537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main challenges of multimodal learning is the need to combine
heterogeneous modalities (e.g., video, audio, text). For example, video and
audio are obtained at much higher rates than text and are roughly aligned in
time. They are often not synchronized with text, which comes as a global
context, e.g., a title, or a description. Furthermore, video and audio inputs
are of much larger volumes, and grow as the video length increases, which
naturally requires more compute dedicated to these modalities and makes
modeling of long-range dependencies harder.
We here decouple the multimodal modeling, dividing it into separate, focused
autoregressive models, processing the inputs according to the characteristics
of the modalities. We propose a multimodal model, called Mirasol3B, consisting
of an autoregressive component for the time-synchronized modalities (audio and
video), and an autoregressive component for the context modalities which are
not necessarily aligned in time but are still sequential. To address the
long-sequences of the video-audio inputs, we propose to further partition the
video and audio sequences in consecutive snippets and autoregressively process
their representations. To that end, we propose a Combiner mechanism, which
models the audio-video information jointly within a timeframe. The Combiner
learns to extract audio and video features from raw spatio-temporal signals,
and then learns to fuse these features producing compact but expressive
representations per snippet.
Our approach achieves the state-of-the-art on well established multimodal
benchmarks, outperforming much larger models. It effectively addresses the high
computational demand of media inputs by both learning compact representations,
controlling the sequence length of the audio-video feature representations, and
modeling their dependencies in time.
- Abstract(参考訳): マルチモーダル学習の主な課題の1つは、異質なモダリティ(ビデオ、オーディオ、テキストなど)を組み合わせる必要があることである。
例えば、ビデオとオーディオはテキストよりもずっと高いレートで取得され、概ね時間的に一致します。
それらはしばしばテキストと同期しないが、これはグローバルな文脈、例えばタイトルや記述として現れる。
さらに、ビデオとオーディオの入力は、ビデオの長さが大きくなるにつれて大きくなり、これらのモダリティに専用の計算を必要とするようになり、長距離依存のモデリングが困難になる。
ここでは、マルチモーダルモデリングを分離し、個別に集中した自己回帰モデルに分割し、モダリティの特性に応じて入力を処理する。
我々はmirasol3bと呼ばれるマルチモーダルモデルを提案し、時間同期モダリティ(オーディオとビデオ)の自己回帰成分と、必ずしも時間的に整列するとは限らないが連続的なコンテキストモダリティの自己回帰成分からなる。
ビデオ音声入力の長いシーケンスに対処するため,ビデオと音声のシーケンスを逐次スニペットに分割し,その表現を自動回帰処理する手法を提案する。
そこで本研究では,時間枠内で音声・映像情報を協調的にモデル化するコンビネータ機構を提案する。
Combinerは、生の時空間信号から音声とビデオの特徴を抽出し、その後、スニペットごとにコンパクトだが表現力のある表現を生成するこれらの特徴を融合させる。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
コンパクトな表現を学習し、オーディオビデオの特徴表現のシーケンス長を制御し、それらの依存関係を時間内にモデル化することで、メディア入力の高い計算要求に効果的に対処する。
関連論文リスト
- OMCAT: Omni Context Aware Transformer [27.674943980306423]
OCTAVは、オーディオとビデオ間のイベント遷移をキャプチャするために設計された、新しいデータセットである。
OMCATはRoTEを活用する強力なモデルであり、時間依存タスクにおける時間的グラウンドリングと計算効率を向上させる。
本稿では,AVQA(Audio-Visual Question Answering)タスクとOCTAVベンチマークを用いて,時間的推論とモーダルアライメントの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-10-15T23:16:28Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - TMac: Temporal Multi-Modal Graph Learning for Acoustic Event
Classification [60.038979555455775]
本稿では,TMacと呼ばれる音響事象分類のための時間多重モーダルグラフ学習法を提案する。
特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。
いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。
論文 参考訳(メタデータ) (2023-09-21T07:39:08Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。