論文の概要: Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model
- arxiv url: http://arxiv.org/abs/2107.01571v1
- Date: Sun, 4 Jul 2021 08:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 03:49:47.430324
- Title: Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model
- Title(参考訳): 音声指向マルチモーダルマシン理解:タスク、データセット、モデル
- Authors: Zhiqi Huang, Fenglin Liu, Xian Wu, Shen Ge, Helin Wang, Wei Fan,
Yuexian Zou
- Abstract要約: 我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
- 参考スコア(独自算出の注目度): 51.42415340921237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Machine Comprehension (MC) has attracted extensive research interests
in recent years, existing approaches mainly belong to the category of Machine
Reading Comprehension task which mines textual inputs (paragraphs and
questions) to predict the answers (choices or text spans). However, there are a
lot of MC tasks that accept audio input in addition to the textual input, e.g.
English listening comprehension test. In this paper, we target the problem of
Audio-Oriented Multimodal Machine Comprehension, and its goal is to answer
questions based on the given audio and textual information. To solve this
problem, we propose a Dynamic Inter- and Intra-modality Attention (DIIA) model
to effectively fuse the two modalities (audio and textual). DIIA can work as an
independent component and thus be easily integrated into existing MC models.
Moreover, we further develop a Multimodal Knowledge Distillation (MKD) module
to enable our multimodal MC model to accurately predict the answers based only
on either the text or the audio. As a result, the proposed approach can handle
various tasks including: Audio-Oriented Multimodal Machine Comprehension,
Machine Reading Comprehension and Machine Listening Comprehension, in a single
model, making fair comparisons possible between our model and the existing
unimodal MC models. Experimental results and analysis prove the effectiveness
of the proposed approaches. First, the proposed DIIA boosts the baseline models
by up to 21.08% in terms of accuracy; Second, under the unimodal scenarios, the
MKD module allows our multimodal MC model to significantly outperform the
unimodal models by up to 18.87%, which are trained and tested with only audio
or textual data.
- Abstract(参考訳): 近年,機械理解(MC)の研究が盛んに行われているが,既存の手法は主にテキスト入力(パラグラフや質問)をマイニングして回答(選択やテキストスパン)を予測する機械読解タスクのカテゴリに属する。
しかし、例えば、テキスト入力に加えて、オーディオ入力を受け入れる多くのmcタスクがある。
英語の聞き取りテスト。
本稿では,音声指向型マルチモーダルマシン理解の課題を対象とし,与えられた音声情報とテキスト情報に基づいて質問に答えることを目的とする。
そこで本研究では,2つのモダリティ(音声とテクスト)を効果的に融合する動的モード間注意(diia)モデルを提案する。
DIIAは独立したコンポーネントとして機能し、既存のMCモデルに容易に統合できる。
さらに,マルチモーダルMCモデルにより,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールも開発している。
その結果、提案手法は、音声指向マルチモーダルマシン理解、機械読み取り理解、機械リスニング理解といった様々なタスクを単一のモデルで処理でき、我々のモデルと既存のユニモーダルmcモデルとの公平な比較が可能となる。
実験結果と解析により,提案手法の有効性が証明された。
第2に、ユニモーダルなシナリオでは、マルチモーダルmcモデルは、オーディオまたはテキストデータのみを使用してトレーニングおよびテストされる、最大18.87%のユニモーダルモデルを大幅に上回ることができる。
関連論文リスト
- Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:10:45Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Explore the Limits of Omni-modal Pretraining at Scale [21.82148059125346]
マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。
MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。
我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文 参考訳(メタデータ) (2024-06-13T17:59:53Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource
Parallel Data [15.658471125219224]
音声とテキストのマルチモーダル事前学習は有効であることが証明され、ダウンストリーム音声理解タスクの性能が大幅に向上した。
しかし、これらの最先端の訓練済みオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ、うまく機能する。
本稿では,低リソース並列データを用いた音声テキストモデルの事前学習が可能かどうかを検討する。
論文 参考訳(メタデータ) (2022-04-10T10:25:37Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。