論文の概要: SpeechNet: A Universal Modularized Model for Speech Processing Tasks
- arxiv url: http://arxiv.org/abs/2105.03070v1
- Date: Fri, 7 May 2021 05:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 19:44:01.578846
- Title: SpeechNet: A Universal Modularized Model for Speech Processing Tasks
- Title(参考訳): speechnet: 音声処理タスクのための普遍的モジュール化モデル
- Authors: Yi-Chen Chen, Po-Han Chi, Shu-wen Yang, Kai-Wei Chang, Jheng-hao Lin,
Sung-Feng Huang, Da-Rong Liu, Chi-Liang Liu, Cheng-Kuang Lee, Hung-yi Lee
- Abstract要約: 本稿では,5つの基本モジュールを含む共通モジュール化モデルであるSpeechNetを提案する。
これら5つのモジュールをすべて使用した実験では,5つの重要な共通タスクを選択します。
各試行では、マルチタスク設定の下で全ての音声タスクのサブセットを共同で訓練し、全てのモジュールを共有します。
- 参考スコア(独自算出の注目度): 71.77481176376114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a wide variety of speech processing tasks. For different tasks,
model networks are usually designed and tuned separately. This paper proposes a
universal modularized model, SpeechNet, which contains the five basic modules
for speech processing. The concatenation of modules solves a variety of speech
processing tasks. We select five important and common tasks in the experiments
that use all of these five modules altogether. Specifically, in each trial, we
jointly train a subset of all speech tasks under multi-task setting, with all
modules shared. Then we can observe whether one task can benefit another during
training. SpeechNet is modularized and flexible for incorporating more modules,
tasks, or training approaches in the future. We will release the code and
experimental settings to facilitate the research of modularized universal
models or multi-task learning of speech processing tasks.
- Abstract(参考訳): 音声処理のタスクは多種多様である。
異なるタスクに対して、モデルネットワークは通常、個別に設計、調整される。
本稿では,5つの基本モジュールを含む共通モジュール化モデルであるSpeechNetを提案する。
モジュールの連結は、様々な音声処理タスクを解決する。
これら5つのモジュールをすべて使用した実験では,5つの重要な共通タスクを選択します。
具体的には、各試行において、すべてのモジュールが共有されるマルチタスク設定の下で、全ての音声タスクのサブセットを共同で訓練する。
そして、トレーニング中にひとつのタスクが他のタスクに利益をもたらすかどうかを観察できます。
speechnetはモジュール化され、将来より多くのモジュール、タスク、トレーニングアプローチを組み込むために柔軟である。
モジュラー化された普遍モデルの研究や、音声処理タスクのマルチタスク学習を容易にするために、コードと実験的な設定をリリースする。
関連論文リスト
- Speech-Copilot: Leveraging Large Language Models for Speech Processing via Task Decomposition, Modularization, and Program Generation [42.55462692822432]
Speech-Copilotは、命令指向の音声処理タスクのためのモジュラーフレームワークである。
事前にコンパイルされたタスク命令を分析することで、音声処理固有のツールセットを構築する。
プログラム生成を通じてタスクを実行する大きな言語モデルに基づく柔軟なエージェントを備えている。
論文 参考訳(メタデータ) (2024-07-13T13:26:43Z) - An Adapter-Based Unified Model for Multiple Spoken Language Processing Tasks [3.015760169663536]
複数の音声言語処理タスクを処理可能な統一モデルの開発において,アダプタベースの微調整の可能性を検討する。
アダプタをベースとしたファインチューニングにより、単一エンコーダデコーダモデルにより、平均18.4%の精度で複数の音声処理タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-06-20T21:39:04Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。