論文の概要: On decoder-only architecture for speech-to-text and large language model
integration
- arxiv url: http://arxiv.org/abs/2307.03917v3
- Date: Mon, 2 Oct 2023 06:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 17:16:05.281500
- Title: On decoder-only architecture for speech-to-text and large language model
integration
- Title(参考訳): 音声テキストと大規模言語モデル統合のためのデコーダのみアーキテクチャについて
- Authors: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang,
Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
- Abstract要約: Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 59.49886892602309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in the field of
natural language processing, enabling better human-computer interaction using
natural language. However, the seamless integration of speech signals into LLMs
has not been explored well. The "decoder-only" architecture has also not been
well studied for speech processing tasks. In this research, we introduce
Speech-LLaMA, a novel approach that effectively incorporates acoustic
information into text-based large language models. Our method leverages
Connectionist Temporal Classification and a simple audio encoder to map the
compressed acoustic features to the continuous semantic space of the LLM. In
addition, we further probe the decoder-only architecture for speech-to-text
tasks by training a smaller scale randomly initialized speech-LLaMA model from
speech-text paired data alone. We conduct experiments on multilingual
speech-to-text translation tasks and demonstrate a significant improvement over
strong baselines, highlighting the potential advantages of decoder-only models
for speech-to-text conversion.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理の分野で大きな成功を収めており、自然言語を用いた人間とコンピュータの相互作用が向上している。
しかし,LLMへの音声信号のシームレスな統合は十分に研究されていない。
デコーダのみ"アーキテクチャも音声処理タスクではあまり研究されていない。
本研究では,音声情報をテキストベース大規模言語モデルに効果的に組み込む新しい手法であるSpeech-LLaMAを提案する。
本手法は,圧縮音響特徴をLLMの連続的意味空間にマッピングするために,コネクショニスト時間分類と簡単なオーディオエンコーダを利用する。
さらに,音声対テキストタスクのためのデコーダのみのアーキテクチャについても,音声対テキストペアデータのみから,より小規模のランダム初期化音声ラマモデルをトレーニングすることで検討した。
音声からテキストへの変換におけるデコーダのみのモデルの有効性を強調して,多言語音声からテキストへの変換タスクの実験を行い,強いベースラインに対する大幅な改善を示す。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - Direct Text to Speech Translation System using Acoustic Units [12.36988942647101]
本稿では,離散音響単位を用いた音声翻訳システムを提案する。
このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語で音声を生成する。
提案したアーキテクチャを、より多くの言語で事前訓練されたモデルで初期化すると、結果は顕著に改善される。
論文 参考訳(メタデータ) (2023-09-14T07:35:14Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。