論文の概要: From Audio to Symbolic Encoding
- arxiv url: http://arxiv.org/abs/2302.13401v1
- Date: Sun, 26 Feb 2023 20:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:16:15.958046
- Title: From Audio to Symbolic Encoding
- Title(参考訳): オーディオからシンボリックエンコーディングへ
- Authors: Shenli Yuan, Lingjie Kong, and Jiushuang Guo
- Abstract要約: 私たちは現在最先端のOnsetsとFrameの上に構築されている新しいニューラルネットワークアーキテクチャを紹介します。
AMTの場合、我々のモデルは最先端アーキテクチャを用いてトレーニングされたモデルと比較して、より良い結果を得ることができた。
類似したアーキテクチャは音声認識タスクでトレーニングすることができたが、あまり理想的な結果が得られなかった。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic music transcription (AMT) aims to convert raw audio to symbolic
music representation. As a fundamental problem of music information retrieval
(MIR), AMT is considered a difficult task even for trained human experts due to
overlap of multiple harmonics in the acoustic signal. On the other hand, speech
recognition, as one of the most popular tasks in natural language processing,
aims to translate human spoken language to texts. Based on the similar nature
of AMT and speech recognition (as they both deal with tasks of translating
audio signal to symbolic encoding), this paper investigated whether a generic
neural network architecture could possibly work on both tasks. In this paper,
we introduced our new neural network architecture built on top of the current
state-of-the-art Onsets and Frames, and compared the performances of its
multiple variations on AMT task. We also tested our architecture with the task
of speech recognition. For AMT, our models were able to produce better results
compared to the model trained using the state-of-art architecture; however,
although similar architecture was able to be trained on the speech recognition
task, it did not generate very ideal result compared to other task-specific
models.
- Abstract(参考訳): 自動音楽書き起こし(AMT)は、生の音声をシンボリックな音楽表現に変換することを目的としている。
音楽情報検索(MIR)の基本的問題として、音響信号に複数のハーモニックが重複しているため、AMTは訓練された人間の専門家にとっても難しい課題であると考えられている。
一方,音声認識は自然言語処理において最も一般的なタスクの一つであり,人間の音声をテキストに翻訳することを目的としている。
amtと音声認識(どちらも音声信号をシンボリックエンコーディングに翻訳するタスクを扱っている)の類似性に基づき、汎用ニューラルネットワークアーキテクチャが両方のタスクで機能する可能性について検討した。
本稿では,現在の最先端のオンセットとフレーム上に構築したニューラルネットワークアーキテクチャを導入し,amtタスクにおけるその多種多様なバリエーションの性能を比較した。
また,音声認識によるアーキテクチャの検証を行った。
AMTの場合、我々のモデルは最先端アーキテクチャを用いて訓練されたモデルよりも優れた結果を得ることができたが、類似したアーキテクチャは音声認識タスクで訓練することができたが、他のタスク固有のモデルと比べて非常に理想的な結果が得られなかった。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。
これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - EnCodecMAE: Leveraging neural codecs for universal audio representation learning [16.590638305972632]
我々は、音声信号のマスキング表現を提案し、マスクされたセグメントを再構築するためにMAEを訓練する。
本研究では,EnCodecMAEと呼ぶこのアプローチを,音声,音楽,環境音を含む幅広いタスクで評価する。
論文 参考訳(メタデータ) (2023-09-14T02:21:53Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。