論文の概要: State-Space Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2411.15685v1
- Date: Sun, 24 Nov 2024 02:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:25.261595
- Title: State-Space Large Audio Language Models
- Title(参考訳): 状態空間大規模オーディオ言語モデル
- Authors: Saurabhchand Bhati, Yuan Gong, Leonid Karlinsky, Hilde Kuehne, Rogerio Feris, James Glass,
- Abstract要約: LALM(Large Audio Language Models)は、音声認識モデルとLLM(Large Language Models)を組み合わせた言語モデルである。
これらのシステムは、メモリや時間制約のあるシナリオにこれらのシステムをデプロイする際の計算上の課題を生じさせる入力シーケンス長と2次スケールのトランスフォーマーに依存している。
実験結果から, パラメータ数が著しく少ないにもかかわらず, 各種データセット上でのクローズドタスクにおいて, トランスフォーマーベースのLALMと競合することを示す。
- 参考スコア(独自算出の注目度): 38.65927845229572
- License:
- Abstract: Large Audio Language Models (LALM) combine the audio perception models and the Large Language Models (LLM) and show a remarkable ability to reason about the input audio, infer the meaning, and understand the intent. However, these systems rely on Transformers which scale quadratically with the input sequence lengths which poses computational challenges in deploying these systems in memory and time-constrained scenarios. Recently, the state-space models (SSMs) have emerged as an alternative to transformer networks. While there have been successful attempts to replace transformer-based audio perception models with state-space ones, state-space-based LALMs remain unexplored. First, we begin by replacing the transformer-based audio perception module and then replace the transformer-based LLM and propose the first state-space-based LALM. Experimental results demonstrate that space-based LALM despite having a significantly lower number of parameters performs competitively with transformer-based LALMs on close-ended tasks on a variety of datasets.
- Abstract(参考訳): LALM(Large Audio Language Models)は、音声知覚モデルとLarge Language Models(LLM)を組み合わせることで、入力された音声を推論し、意味を推測し、意図を理解する能力を示す。
しかし、これらのシステムは入力シーケンスの長さと2次スケールのトランスフォーマーに依存しており、メモリや時間制約のあるシナリオにこれらのシステムをデプロイする際の計算上の課題を生じさせる。
近年,変圧器ネットワークの代替として状態空間モデル (SSM) が登場している。
トランスフォーマーベースの音声知覚モデルをステートスペースモデルに置き換える試みは成功したが、状態空間ベースのLALMは未検討のままである。
まず、変換器ベースの音声認識モジュールを置き換え、次に変換器ベースのLLMを置き換え、最初の状態空間ベースのLALMを提案する。
実験結果から, パラメータ数が著しく少ないスペースベースLALMは, 各種データセットのクローズドタスクにおいて, トランスフォーマーベースLALMと競合することを示した。
関連論文リスト
- SLMGAN: Exploiting Speech Language Model Representations for
Unsupervised Zero-Shot Voice Conversion in GANs [22.522376665078248]
本稿では,GAN(Generative Adversarial Network)フレームワークにおいて,SLM表現を識別タスクに活用するための新しいアプローチであるSLMGANを提案する。
StarGANv2-VCをベースとして、新しいSLMベースのWavLMディスクリミネータをメルベースのディスクリミネータに加え、新たに設計されたSLM特徴マッチング損失関数も追加します。
主観評価の結果,SLMGANは既存のゼロショット音声変換モデルよりも自然性に優れ,類似性も同等であることがわかった。
論文 参考訳(メタデータ) (2023-07-18T17:09:15Z) - Multi-Head State Space Model for Speech Recognition [44.04124537862432]
状態空間モデル(SSM)は、最近、小規模シーケンスおよび言語モデリングタスクにおいて有望な結果を示した。
本稿では,特殊なゲーティング機構を備えたマルチヘッド状態空間(MH-SSM)アーキテクチャを提案する。
変圧器エンコーダにおけるマルチヘッドアテンションの代替として、この新モデルは、LibriSpeech音声認識コーパスにおいてトランスデューサを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-21T16:28:57Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Transformer in action: a comparative study of transformer-based acoustic
models for large scale speech recognition applications [23.470690511056173]
インダストリアルスケールタスクにおけるトランスフォーマーベース音響モデルとLSTMモデルとの比較を行った。
低レイテンシ音声アシスタントタスクでは、Emformerは24%から26%の相対的単語誤り率削減(WERR)を受ける。
中程度のレイテンシのシナリオでは、LCBLSTMと同じようなモデルサイズとレイテンシを比較して、Emformerはビデオキャプションデータセットで4つの言語にわたる重要なWERRを取得する。
論文 参考訳(メタデータ) (2020-10-27T23:04:21Z) - LSTM-LM with Long-Term History for First-Pass Decoding in Conversational
Speech Recognition [27.639919625398]
LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースn-gram LMよりも大幅に性能が向上した。
最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。
論文 参考訳(メタデータ) (2020-10-21T23:40:26Z) - Exploring Transformers for Large-Scale Speech Recognition [34.645597506707055]
変換器は,オフライン方式のBLSTMベースラインと比較して,約6%の単語誤り率(WER)削減を実現可能であることを示す。
ストリーミング方式では、Transformer-XLは800ミリ秒のレイテンシ制約を持つLC-BLSTMに匹敵する。
論文 参考訳(メタデータ) (2020-05-19T18:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。