論文の概要: AudioPaLM: A Large Language Model That Can Speak and Listen
- arxiv url: http://arxiv.org/abs/2306.12925v1
- Date: Thu, 22 Jun 2023 14:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:17:17.095899
- Title: AudioPaLM: A Large Language Model That Can Speak and Listen
- Title(参考訳): AudioPaLM: 講演や聞き取りが可能な大規模言語モデル
- Authors: Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur
Bapna, Zal\'an Borsos, F\'elix de Chaumont Quitry, Peter Chen, Dalia El
Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James
Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle
Tadmor, Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo
Velimirovi\'c, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil
Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank
- Abstract要約: 本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
- 参考スコア(独自算出の注目度): 79.44757696533709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AudioPaLM, a large language model for speech understanding and
generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2
[Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified
multimodal architecture that can process and generate text and speech with
applications including speech recognition and speech-to-speech translation.
AudioPaLM inherits the capability to preserve paralinguistic information such
as speaker identity and intonation from AudioLM and the linguistic knowledge
present only in text large language models such as PaLM-2. We demonstrate that
initializing AudioPaLM with the weights of a text-only large language model
improves speech processing, successfully leveraging the larger quantity of text
training data used in pretraining to assist with the speech tasks. The
resulting model significantly outperforms existing systems for speech
translation tasks and has the ability to perform zero-shot speech-to-text
translation for many languages for which input/target language combinations
were not seen in training. AudioPaLM also demonstrates features of audio
language models, such as transferring a voice across languages based on a short
spoken prompt. We release examples of our method at
https://google-research.github.io/seanet/audiopalm/examples
- Abstract(参考訳): 本稿では音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMは、テキストベースおよび音声ベースの言語モデルであるPaLM-2(Anil et al., 2023)とAudioLM(Borsos et al., 2022)を統合マルチモーダルアーキテクチャに融合し、音声認識や音声音声翻訳などのアプリケーションでテキストと音声を処理・生成する。
AudioPaLMは、話者識別やイントネーションなどのパラ言語情報をAudioLMから継承し、PaLM-2のようなテキスト大言語モデルにのみ存在する言語知識を継承する。
本研究では,テキストのみの大規模言語モデルの重みを伴ってAudioPaLMを初期化することで音声処理が向上し,事前学習に使用する大量のテキストトレーニングデータを活用できることを実証する。
このモデルは既存の音声翻訳システムよりも優れており、入力/ターゲット言語の組み合わせが訓練中に見られない多くの言語に対してゼロショット音声テキスト翻訳を行うことができる。
AudioPaLMはまた、短い音声プロンプトに基づいて言語間で音声を転送するなど、オーディオ言語モデルの機能をデモしている。
私たちは https://google-research.github.io/seanet/audiopalm/examples でメソッドの例をリリースします。
関連論文リスト
- AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation
with Unified Audio-Visual Speech Representation [64.14812728562596]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Many-to-Many Spoken Language Translation via Unified Speech and Text
Representation Learning with Unit-to-Unit Translation [39.74625363642717]
自己教師型音声モデルから符号化された音声特徴の量子化表現である音声単位を用いた多言語音声の表現を行う。
そこで本研究では,多言語データに基づいて,ユニット・ツー・ユニット翻訳(UTUT)を目標としたエンコーダ・デコーダ構造モデルを訓練する。
UTUTを用いた1つの事前学習モデルは、音声音声翻訳(STS)、多言語テキスト音声合成(TTS)、テキスト音声翻訳(TTST)などの多言語音声およびテキスト関連タスクに利用できる。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。