Fugu-MT 論文翻訳(概要): DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment

論文の概要: DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment

arxiv url: http://arxiv.org/abs/2406.18871v1
Date: Thu, 27 Jun 2024 03:52:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:17:37.530764
Title: DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment
Title（参考訳）: DeSTA:記述型音声テキストアライメントによる音声モデルの強化
Authors: Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, He Huang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee,
Abstract要約: 本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
参考スコア（独自算出の注目度）: 82.86363991170546
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent speech language models (SLMs) typically incorporate pre-trained speech models to extend the capabilities from large language models (LLMs). In this paper, we propose a Descriptive Speech-Text Alignment approach that leverages speech captioning to bridge the gap between speech and text modalities, enabling SLMs to interpret and generate comprehensive natural language descriptions, thereby facilitating the capability to understand both linguistic and non-linguistic features in speech. Enhanced with the proposed approach, our model demonstrates superior performance on the Dynamic-SUPERB benchmark, particularly in generalizing to unseen tasks. Moreover, we discover that the aligned model exhibits a zero-shot instruction-following capability without explicit speech instruction tuning. These findings highlight the potential to reshape instruction-following SLMs by incorporating rich, descriptive speech captions.
Abstract（参考訳）: 最近の音声言語モデル(SLM)は、通常、訓練済みの音声モデルを組み込んで、大きな言語モデル(LLM)から機能を拡張する。本稿では,音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述的音声テキストアライメント手法を提案する。提案手法によって強化された本モデルでは,Dynamic-SUPERBベンチマークにおいて,特に未確認タスクの一般化において,優れた性能を示す。さらに、アライメントモデルでは、明示的な音声の調律を伴わずに、ゼロショットの指示追従能力を示すことが判明した。これらの知見は、リッチで記述的な音声キャプションを組み込むことにより、命令追従型SLMを再構築する可能性を強調した。

関連論文リスト

BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs [84.59993864748195]
音声生成から命令理解を分離する「操作主義」に着想を得た新しいパラダイムを提案する。本稿では,LLMが導体として機能するフレームワークであるBatonVoiceを紹介し,ユーザの指示を理解する。別個のTSモデルである「オーケストラ」は、これらの特徴から音声を生成する。
論文参考訳（メタデータ） (2025-09-30T16:52:14Z)
ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
SparQLe: Speech Queries to Text Translation Through LLMs [0.8901073744693314]
そこで本研究では,自己教師型音声表現と命令調整型LLMを併用して,音声からテキストへの翻訳を行う手法を提案する。実験により,本手法は入力音声の意味的内容を効果的に保存し,自己教師型音声モデルと命令調整型LLMの効果的なブリッジとして機能することが示された。
論文参考訳（メタデータ） (2025-02-13T12:57:15Z)
Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文参考訳（メタデータ） (2024-10-04T04:34:24Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文参考訳（メタデータ） (2024-09-05T16:57:39Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文参考訳（メタデータ） (2023-09-18T14:59:10Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。