論文の概要: SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts
- arxiv url: http://arxiv.org/abs/2306.02207v2
- Date: Mon, 19 Jun 2023 20:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 01:24:08.109270
- Title: SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts
- Title(参考訳): speechgen: プロンプトによる音声言語モデルの生成能力の解放
- Authors: Haibin Wu, Kai-Wei Chang, Yuan-Kuei Wu, Hung-yi Lee
- Abstract要約: 本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 112.34873647436802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have gained considerable attention for
Artificial Intelligence Generated Content (AIGC), particularly with the
emergence of ChatGPT. However, the direct adaptation of continuous speech to
LLMs that process discrete tokens remains an unsolved challenge, hindering the
application of LLMs for speech generation. The advanced speech LMs are in the
corner, as that speech signals encapsulate a wealth of information, including
speaker and emotion, beyond textual data alone. Prompt tuning has demonstrated
notable gains in parameter efficiency and competitive performance on some
speech classification tasks. However, the extent to which prompts can
effectively elicit generation tasks from speech LMs remains an open question.
In this paper, we present pioneering research that explores the application of
prompt tuning to stimulate speech LMs for various generation tasks, within a
unified framework called SpeechGen, with around 10M trainable parameters. The
proposed unified framework holds great promise for efficiency and
effectiveness, particularly with the imminent arrival of advanced speech LMs,
which will significantly enhance the capabilities of the framework. The code
and demos of SpeechGen will be available on the project website:
\url{https://ga642381.github.io/SpeechPrompt/speechgen}
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能生成コンテンツ(AIGC)、特にChatGPTの出現によって注目されている。
しかし、離散トークンを処理するLLMへの連続音声の直接適応は未解決の課題であり、LLMの音声生成への応用を妨げる。
音声信号は、テキストデータだけでなく、話者や感情を含む豊富な情報をカプセル化するので、高度な音声lmsは角を曲がっている。
プロンプトチューニングは、いくつかの音声分類タスクにおいてパラメータ効率と競合性能が著しく向上している。
しかしながら、プロンプトが音声lmsから生成タスクを効果的に導出できる程度は、未解決の問題である。
本稿では,SpeechGenと呼ばれる一貫したフレームワークにおいて,各世代タスクの音声LMを刺激するために,約10Mのトレーニング可能なパラメータで即時チューニングする手法を提案する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めており、特に高度な音声 LM の到着が差し迫っているため、フレームワークの能力は大幅に向上する。
speechgenのコードとデモはプロジェクトのwebサイトにある。 \url{https://ga642381.github.io/speechprompt/speechgen}
関連論文リスト
- IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
大きな言語モデル(LLM)は、ユーザーの感情や会話スタイルを考慮に入れられる。
本研究では,音声エンコーダを用いたエンドツーエンドシステムを提案する。
このトレーニングフレームワークにより,音声中の意味的情報とパラ言語的情報の両方をキャプチャするトークンをエンコーダが生成できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。