論文の概要: AudioPaLM: A Large Language Model That Can Speak and Listen
- arxiv url: http://arxiv.org/abs/2306.12925v1
- Date: Thu, 22 Jun 2023 14:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:17:17.095899
- Title: AudioPaLM: A Large Language Model That Can Speak and Listen
- Title(参考訳): AudioPaLM: 講演や聞き取りが可能な大規模言語モデル
- Authors: Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur
Bapna, Zal\'an Borsos, F\'elix de Chaumont Quitry, Peter Chen, Dalia El
Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James
Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle
Tadmor, Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo
Velimirovi\'c, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil
Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank
- Abstract要約: 本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
- 参考スコア(独自算出の注目度): 79.44757696533709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AudioPaLM, a large language model for speech understanding and
generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2
[Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified
multimodal architecture that can process and generate text and speech with
applications including speech recognition and speech-to-speech translation.
AudioPaLM inherits the capability to preserve paralinguistic information such
as speaker identity and intonation from AudioLM and the linguistic knowledge
present only in text large language models such as PaLM-2. We demonstrate that
initializing AudioPaLM with the weights of a text-only large language model
improves speech processing, successfully leveraging the larger quantity of text
training data used in pretraining to assist with the speech tasks. The
resulting model significantly outperforms existing systems for speech
translation tasks and has the ability to perform zero-shot speech-to-text
translation for many languages for which input/target language combinations
were not seen in training. AudioPaLM also demonstrates features of audio
language models, such as transferring a voice across languages based on a short
spoken prompt. We release examples of our method at
https://google-research.github.io/seanet/audiopalm/examples
- Abstract(参考訳): 本稿では音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMは、テキストベースおよび音声ベースの言語モデルであるPaLM-2(Anil et al., 2023)とAudioLM(Borsos et al., 2022)を統合マルチモーダルアーキテクチャに融合し、音声認識や音声音声翻訳などのアプリケーションでテキストと音声を処理・生成する。
AudioPaLMは、話者識別やイントネーションなどのパラ言語情報をAudioLMから継承し、PaLM-2のようなテキスト大言語モデルにのみ存在する言語知識を継承する。
本研究では,テキストのみの大規模言語モデルの重みを伴ってAudioPaLMを初期化することで音声処理が向上し,事前学習に使用する大量のテキストトレーニングデータを活用できることを実証する。
このモデルは既存の音声翻訳システムよりも優れており、入力/ターゲット言語の組み合わせが訓練中に見られない多くの言語に対してゼロショット音声テキスト翻訳を行うことができる。
AudioPaLMはまた、短い音声プロンプトに基づいて言語間で音声を転送するなど、オーディオ言語モデルの機能をデモしている。
私たちは https://google-research.github.io/seanet/audiopalm/examples でメソッドの例をリリースします。
関連論文リスト
- Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,タイ語を用いた未保存言語における既存の音声言語モデルの性能について検討する。
多言語バックボーン上に構築されているにもかかわらず、音声言語モデルは言語間の創発能力を示すものではない。
本稿では,音声理解と音声指示追従機能を単一統一モデルに統合する。
論文 参考訳(メタデータ) (2024-09-17T09:04:03Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。
これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。