論文の概要: Advancing Large Language Models to Capture Varied Speaking Styles and
Respond Properly in Spoken Conversations
- arxiv url: http://arxiv.org/abs/2402.12786v1
- Date: Tue, 20 Feb 2024 07:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:35:14.011400
- Title: Advancing Large Language Models to Capture Varied Speaking Styles and
Respond Properly in Spoken Conversations
- Title(参考訳): 音声対話における大規模言語モデルによる発話スタイルの獲得と応答性の向上
- Authors: Guan-Ting Lin, Cheng-Han Chiang, Hung-yi Lee
- Abstract要約: 現在の2つの旋回が同じ文であっても、異なるスタイルで話されるときの応答は相変わらず異なる。
本稿では,言語内容と発話スタイルをモデル化できるSpken-LLMフレームワークを提案する。
StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、Spoken-LLMが話し方を学ぶのに役立つ2段階のトレーニングパイプラインを作成します。
- 参考スコア(独自算出の注目度): 73.3851874978745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In spoken dialogue, even if two current turns are the same sentence, their
responses might still differ when they are spoken in different styles. The
spoken styles, containing paralinguistic and prosodic information, mark the
most significant difference between text and speech modality. When using
text-only LLMs to model spoken dialogue, text-only LLMs cannot give different
responses based on the speaking style of the current turn. In this paper, we
focus on enabling LLMs to listen to the speaking styles and respond properly.
Our goal is to teach the LLM that "even if the sentences are identical if they
are spoken in different styles, their corresponding responses might be
different". Since there is no suitable dataset for achieving this goal, we
collect a speech-to-speech dataset, StyleTalk, with the following desired
characteristics: when two current speeches have the same content but are spoken
in different styles, their responses will be different. To teach LLMs to
understand and respond properly to the speaking styles, we propose the
Spoken-LLM framework that can model the linguistic content and the speaking
styles. We train Spoken-LLM using the StyleTalk dataset and devise a two-stage
training pipeline to help the Spoken-LLM better learn the speaking styles.
Based on extensive experiments, we show that Spoken-LLM outperforms text-only
baselines and prior speech LLMs methods.
- Abstract(参考訳): 音声対話では、2つの現行の旋回が同じ文であっても、その応答は異なるスタイルで話されるときでも異なる可能性がある。
パラ言語的および韻律的な情報を含む音声スタイルは、テキストと音声のモダリティの最も重要な違いを示す。
テキストのみのLLMを用いて音声対話をモデル化する場合、テキストのみのLLMは現在のターンの発声スタイルに基づいて異なる応答を与えることはできない。
本稿では,llmが話し方の聞き取りと適切な応答を可能にすることに焦点を当てる。
我々の目標は、LLMに「異なるスタイルで話されている文が同一であっても、対応する応答が異なるかもしれない」と教えることです。
この目標を達成するための適切なデータセットが存在しないため、現在2つの発話が同じ内容であるが異なるスタイルで話されている場合、その応答は異なるという望ましい特徴を持つ音声合成データセットであるStyleTalkを収集する。
そこで本研究では,LLMに対して,言語内容と話し言葉スタイルをモデル化するスポンケン・LLMフレームワークを提案する。
StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、Spoken-LLMが話し方を学ぶのに役立つ2段階のトレーニングパイプラインを作成します。
広範に実験を行った結果,Spoken-LLMはテキストのみのベースラインと先行音声LLMよりも優れていた。
関連論文リスト
- Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment
of Continuation Writing [36.83984780648144]
音声とテキスト間のモダリティアライメントは 未解決の問題です
本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。
この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-09-02T11:46:05Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Spoken Question Answering and Speech Continuation Using
Spectrogram-Powered LLM [20.094593730079403]
本稿では,事前学習された大規模言語モデル(LLM)を用いて質問応答(QA)と音声継続を行う手法を提案する。
LLMに事前訓練された音声エンコーダを付与することにより、我々のモデルは音声入力を取り込み、音声出力を生成することができる。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - End-to-End Text-to-Speech Based on Latent Representation of Speaking
Styles Using Spontaneous Dialogue [19.149834552175076]
本研究の目的は,人間の対話によく似たテキスト音声(TTS)を実現することである。
まず、実際の自然対話を記録し、書き起こす。
提案した対話TSは、第1段階、変分オートエンコーダ(VAE)-VITSまたはガウス混合変分オートエンコーダ(GMVAE)-VITSの2段階で訓練される。
論文 参考訳(メタデータ) (2022-06-24T02:32:12Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。