Fugu-MT 論文翻訳(概要): Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation

論文の概要: Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation

arxiv url: http://arxiv.org/abs/2402.05706v2
Date: Tue, 27 Aug 2024 02:24:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 19:49:00.174334
Title: Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation
Title（参考訳）: 自然言語対話のための音声を用いた大規模言語モデルにおけるパラ言語学の統合
Authors: Heeseung Kim, Soonshin Seo, Kyeongseok Jeong, Ohsung Kwon, Soyoon Kim, Jungwhan Kim, Jaehong Lee, Eunwoo Song, Myungwoo Oh, Jung-Woo Ha, Sungroh Yoon, Kang Min Yoo,
Abstract要約: 本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
参考スコア（独自算出の注目度）: 46.93969003104427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work shows promising results in expanding the capabilities of large language models (LLM) to directly understand and synthesize speech. However, an LLM-based strategy for modeling spoken dialogs remains elusive, calling for further investigation. This paper introduces an extensive speech-text LLM framework, the Unified Spoken Dialog Model (USDM), designed to generate coherent spoken responses with naturally occurring prosodic features relevant to the given input speech without relying on explicit automatic speech recognition (ASR) or text-to-speech (TTS) systems. We have verified the inclusion of prosody in speech tokens that predominantly contain semantic information and have used this foundation to construct a prosody-infused speech-text model. Additionally, we propose a generalized speech-text pretraining scheme that enhances the capture of cross-modal semantics. To construct USDM, we fine-tune our speech-text model on spoken dialog data using a multi-step spoken dialog template that stimulates the chain-of-reasoning capabilities exhibited by the underlying LLM. Automatic and human evaluations on the DailyTalk dataset demonstrate that our approach effectively generates natural-sounding spoken responses, surpassing previous and cascaded baselines. We will make our code and checkpoints publicly available.
Abstract（参考訳）: 最近の研究は、音声を直接理解し合成する大規模言語モデル(LLM)の能力を拡大する有望な成果を示している。しかし、LLMに基づく音声対話のモデル化戦略はいまだ解明されていないため、さらなる調査が求められている。本稿では,与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレント音声応答を,明示的な自動音声認識(ASR)やテキスト音声合成(TTS)システムに頼らずに生成することを目的とした,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を提案する。意味情報を主成分とする音声トークンに韻律が組み込まれていることを検証するとともに,この基盤を用いて韻律を注入した音声テキストモデルを構築した。さらに,クロスモーダルなセマンティクスの獲得を促進する汎用的な音声テキスト事前学習手法を提案する。 USDMを構築するために,マルチステップ音声対話テンプレートを用いて音声対話データ上で音声テキストモデルを微調整する。 DailyTalkデータセットにおける自動評価と人的評価は,本手法が従来およびそれ以前のベースラインを超越した自然な音声応答を効果的に生成することを示す。コードとチェックポイントを公開します。

関連論文リスト

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation [56.683846056788326]
本稿では,自発音声対話gEnerationのためのSLMとLLMの統合を提案する。本研究では,テキスト対話を音素シーケンスに変換し,音素の持続時間を予測するために2tower変換器を用いた継続時間予測手法を提案する。 Fisherデータセットを用いた実験結果から,本システムは高意味的コヒーレンスを維持しつつ,自然な音声対話を生成可能であることが示された。
論文参考訳（メタデータ） (2025-01-01T11:11:07Z)
Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。本稿では,近年のSpeechLM構築手法について概観する。
論文参考訳（メタデータ） (2024-10-01T21:48:12Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2024-08-13T04:35:11Z)
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。 SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文参考訳（メタデータ） (2024-01-24T15:25:01Z)
Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文参考訳（メタデータ） (2023-09-20T01:48:27Z)
Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文参考訳（メタデータ） (2023-09-18T14:59:10Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。