論文の概要: SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts
- arxiv url: http://arxiv.org/abs/2306.02207v3
- Date: Fri, 25 Aug 2023 16:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:12:03.204974
- Title: SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts
- Title(参考訳): speechgen: プロンプトによる音声言語モデルの生成能力の解放
- Authors: Haibin Wu, Kai-Wei Chang, Yuan-Kuei Wu, Hung-yi Lee
- Abstract要約: 本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 108.04306136086807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have gained considerable attention for
Artificial Intelligence Generated Content (AIGC), particularly with the
emergence of ChatGPT. However, the direct adaptation of continuous speech to
LLMs that process discrete tokens remains an unsolved challenge, hindering the
application of LLMs for speech generation. The advanced speech LMs are in the
corner, as that speech signals encapsulate a wealth of information, including
speaker and emotion, beyond textual data alone. Prompt tuning has demonstrated
notable gains in parameter efficiency and competitive performance on some
speech classification tasks. However, the extent to which prompts can
effectively elicit generation tasks from speech LMs remains an open question.
In this paper, we present pioneering research that explores the application of
prompt tuning to stimulate speech LMs for various generation tasks, within a
unified framework called SpeechGen, with around 10M trainable parameters. The
proposed unified framework holds great promise for efficiency and
effectiveness, particularly with the imminent arrival of advanced speech LMs,
which will significantly enhance the capabilities of the framework. The code
and demos of SpeechGen will be available on the project website:
\url{https://ga642381.github.io/SpeechPrompt/speechgen}
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能生成コンテンツ(AIGC)、特にChatGPTの出現によって注目されている。
しかし、離散トークンを処理するLLMへの連続音声の直接適応は未解決の課題であり、LLMの音声生成への応用を妨げる。
音声信号は、テキストデータだけでなく、話者や感情を含む豊富な情報をカプセル化するので、高度な音声lmsは角を曲がっている。
プロンプトチューニングは、いくつかの音声分類タスクにおいてパラメータ効率と競合性能が著しく向上している。
しかしながら、プロンプトが音声lmsから生成タスクを効果的に導出できる程度は、未解決の問題である。
本稿では,SpeechGenと呼ばれる一貫したフレームワークにおいて,各世代タスクの音声LMを刺激するために,約10Mのトレーニング可能なパラメータで即時チューニングする手法を提案する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めており、特に高度な音声 LM の到着が差し迫っているため、フレームワークの能力は大幅に向上する。
speechgenのコードとデモはプロジェクトのwebサイトにある。 \url{https://ga642381.github.io/speechprompt/speechgen}
関連論文リスト
- SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Towards General-Purpose Speech Abilities for Large Language Models Using
Unpaired Data [26.268670930367097]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
提案モデルでは,音声のプロンプトをテキストの代替として利用し,会話を継続することができる。
カスケードとは違って,本手法では,テキストと音声のモダリティを交換し,会話の先行状況を利用してより良い結果を提供する。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment
of Continuation Writing [36.83984780648144]
音声とテキスト間のモダリティアライメントは 未解決の問題です
本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。
この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-09-02T11:46:05Z) - SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。
音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2023-08-31T12:53:09Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [59.54465462717297]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Spoken Question Answering and Speech Continuation Using
Spectrogram-Powered LLM [20.094593730079403]
本稿では,事前学習された大規模言語モデル(LLM)を用いて質問応答(QA)と音声継続を行う手法を提案する。
LLMに事前訓練された音声エンコーダを付与することにより、我々のモデルは音声入力を取り込み、音声出力を生成することができる。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。