論文の概要: VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation
- arxiv url: http://arxiv.org/abs/2305.16107v1
- Date: Thu, 25 May 2023 14:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:38:59.328975
- Title: VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation
- Title(参考訳): VioLA:音声認識・合成・翻訳のための統一コーデック言語モデル
- Authors: Tianrui Wang, Long Zhou, Ziqiang Zhang, Yu Wu, Shujie Liu, Yashesh
Gaur, Zhuo Chen, Jinyu Li, Furu Wei
- Abstract要約: VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
- 参考スコア(独自算出の注目度): 91.39949385661379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research shows a big convergence in model architecture, training
objectives, and inference methods across various tasks for different
modalities. In this paper, we propose VioLA, a single auto-regressive
Transformer decoder-only network that unifies various cross-modal tasks
involving speech and text, such as speech-to-text, text-to-text,
text-to-speech, and speech-to-speech tasks, as a conditional codec language
model task via multi-task learning framework. To accomplish this, we first
convert all the speech utterances to discrete tokens (similar to the textual
data) using an offline neural codec encoder. In such a way, all these tasks are
converted to token-based sequence conversion problems, which can be naturally
handled with one conditional language model. We further integrate task IDs
(TID) and language IDs (LID) into the proposed model to enhance the modeling
capability of handling different languages and tasks. Experimental results
demonstrate that the proposed VioLA model can support both single-modal and
cross-modal tasks well, and the decoder-only model achieves a comparable and
even better performance than the strong baselines.
- Abstract(参考訳): 近年の研究では、モデルアーキテクチャ、トレーニング目標、様々なタスクにおける様々なモーダルに対する推論手法に大きな収束が示されている。
本稿では,マルチタスク学習フレームワークを用いた条件付きコーデック言語モデルタスクとして,音声テキスト,テキストテキスト,テキスト音声,音声音声タスクなど,音声とテキストを含むさまざまなモーダルタスクを統合する,単一の自動回帰トランスフォーマーデコーダのみのネットワークであるVioLAを提案する。
これを実現するために、オフラインのニューラルコーデックエンコーダを用いて、まず全ての発話を個別のトークン(テキストデータと類似)に変換する。
このように、これらのタスクはすべてトークンベースのシーケンス変換問題に変換され、単一の条件付き言語モデルで自然に処理できる。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
実験結果から,提案したVioLAモデルは単一モーダルタスクとクロスモーダルタスクの両方をうまくサポートでき,デコーダのみのモデルは強力なベースラインよりも同等で,さらに優れた性能が得られることが示された。
関連論文リスト
- SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - Many-to-Many Spoken Language Translation via Unified Speech and Text
Representation Learning with Unit-to-Unit Translation [39.74625363642717]
自己教師型音声モデルから符号化された音声特徴の量子化表現である音声単位を用いた多言語音声の表現を行う。
そこで本研究では,多言語データに基づいて,ユニット・ツー・ユニット翻訳(UTUT)を目標としたエンコーダ・デコーダ構造モデルを訓練する。
UTUTを用いた1つの事前学習モデルは、音声音声翻訳(STS)、多言語テキスト音声合成(TTS)、テキスト音声翻訳(TTST)などの多言語音声およびテキスト関連タスクに利用できる。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。