論文の概要: Listen, Read, and Identify: Multimodal Singing Language Identification
- arxiv url: http://arxiv.org/abs/2103.01893v1
- Date: Tue, 2 Mar 2021 17:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 10:21:01.361778
- Title: Listen, Read, and Identify: Multimodal Singing Language Identification
- Title(参考訳): Listen, Read, Identify: Multimodal Singing Language Identification
- Authors: Keunwoo Choi, Yuxuan Wang
- Abstract要約: 音声コンテンツとテキストメタデータの両方を用いたマルチモーダル歌唱言語分類モデルを提案する。
提案モデルであるLRID-Netは,メタデータから推定した音声信号と言語確率ベクトルを取り,目標言語10言語の確率を出力する。
- 参考スコア(独自算出の注目度): 5.337127684194359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a multimodal singing language classification model that uses both
audio content and textual metadata. LRID-Net, the proposed model, takes an
audio signal and a language probability vector estimated from the metadata and
outputs the probabilities of the ten target languages. Optionally, LRID-Net is
facilitated with modality dropouts to handle a missing modality. In the
experiment, we trained several LRID-Nets with varying modality dropout
configuration and test them with various combinations of input modalities. The
experiment results demonstrate that using multimodal input improves the
performance. The results also suggest that adopting modality dropout does not
degrade performance of the model when there are full modality inputs while
enabling the model to handle missing modality cases to some extent.
- Abstract(参考訳): 音声コンテンツとテキストメタデータの両方を用いたマルチモーダル歌唱言語分類モデルを提案する。
提案モデルであるLRID-Netは,メタデータから推定した音声信号と言語確率ベクトルを取り,目標言語10言語の確率を出力する。
オプションとして、LRID-Netは、欠落したモダリティを扱うために、モダリティドロップアウトで容易にされる。
実験では、様々なモードのドロップアウト構成のLRID-Netを訓練し、様々な入力モードの組み合わせでそれらをテストした。
実験の結果,マルチモーダル入力により性能が向上することが示された。
また, モダリティ・ドロップアウトの導入は, 完全なモダリティ・インプットが存在する場合のモデルの性能を低下させることなく, モデルが欠落したモダリティ・ケースをある程度扱えることを示唆している。
関連論文リスト
- OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Acquiring Linguistic Knowledge from Multimodal Input [10.965306219502303]
子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。
我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
論文 参考訳(メタデータ) (2024-02-27T23:29:10Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。