論文の概要: VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation
- arxiv url: http://arxiv.org/abs/2305.16107v1
- Date: Thu, 25 May 2023 14:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:38:59.328975
- Title: VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation
- Title(参考訳): VioLA:音声認識・合成・翻訳のための統一コーデック言語モデル
- Authors: Tianrui Wang, Long Zhou, Ziqiang Zhang, Yu Wu, Shujie Liu, Yashesh
Gaur, Zhuo Chen, Jinyu Li, Furu Wei
- Abstract要約: VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
- 参考スコア(独自算出の注目度): 91.39949385661379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research shows a big convergence in model architecture, training
objectives, and inference methods across various tasks for different
modalities. In this paper, we propose VioLA, a single auto-regressive
Transformer decoder-only network that unifies various cross-modal tasks
involving speech and text, such as speech-to-text, text-to-text,
text-to-speech, and speech-to-speech tasks, as a conditional codec language
model task via multi-task learning framework. To accomplish this, we first
convert all the speech utterances to discrete tokens (similar to the textual
data) using an offline neural codec encoder. In such a way, all these tasks are
converted to token-based sequence conversion problems, which can be naturally
handled with one conditional language model. We further integrate task IDs
(TID) and language IDs (LID) into the proposed model to enhance the modeling
capability of handling different languages and tasks. Experimental results
demonstrate that the proposed VioLA model can support both single-modal and
cross-modal tasks well, and the decoder-only model achieves a comparable and
even better performance than the strong baselines.
- Abstract(参考訳): 近年の研究では、モデルアーキテクチャ、トレーニング目標、様々なタスクにおける様々なモーダルに対する推論手法に大きな収束が示されている。
本稿では,マルチタスク学習フレームワークを用いた条件付きコーデック言語モデルタスクとして,音声テキスト,テキストテキスト,テキスト音声,音声音声タスクなど,音声とテキストを含むさまざまなモーダルタスクを統合する,単一の自動回帰トランスフォーマーデコーダのみのネットワークであるVioLAを提案する。
これを実現するために、オフラインのニューラルコーデックエンコーダを用いて、まず全ての発話を個別のトークン(テキストデータと類似)に変換する。
このように、これらのタスクはすべてトークンベースのシーケンス変換問題に変換され、単一の条件付き言語モデルで自然に処理できる。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
実験結果から,提案したVioLAモデルは単一モーダルタスクとクロスモーダルタスクの両方をうまくサポートでき,デコーダのみのモデルは強力なベースラインよりも同等で,さらに優れた性能が得られることが示された。
関連論文リスト
- Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。
本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。
視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。