論文の概要: Transferable speech-to-text large language model alignment module
- arxiv url: http://arxiv.org/abs/2406.13357v1
- Date: Wed, 19 Jun 2024 09:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:30:00.646533
- Title: Transferable speech-to-text large language model alignment module
- Title(参考訳): 音声からテキストへの変換可能な大言語モデルアライメントモジュール
- Authors: Boyong Wu, Chao Yan, Haoran Pu,
- Abstract要約: State of the art speech-text bimodal work can achieved challenge task like spoken translation (ST) and question answering (SQA) through completely simple architectures。
我々は、Whisperエンコーダと事前訓練されたYi-6Bの能力を利用する。
- 参考スコア(独自算出の注目度): 3.6413411252721812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By leveraging the power of Large Language Models(LLMs) and speech foundation models, state of the art speech-text bimodal works can achieve challenging tasks like spoken translation(ST) and question answering(SQA) altogether with much simpler architectures. In this paper, we utilize the capability of Whisper encoder and pre-trained Yi-6B. Empirical results reveal that modal alignment can be achieved with one layer module and hundred hours of speech-text multitask corpus. We further swap the Yi-6B with human preferences aligned version of Yi-6B-Chat during inference, and discover that the alignment capability is applicable as well. In addition, the alignment subspace revealed by singular value decomposition(SVD) also implies linear alignment subspace is sparse, which leaves the possibility to concatenate other features like voice-print or video to expand modality.
- Abstract(参考訳): LLM(Large Language Models)と音声基礎モデルの力を利用することで、最先端の音声テキストバイモーダルワークは、より単純なアーキテクチャで、音声翻訳(ST)や質問応答(SQA)といった挑戦的なタスクを実現できる。
本稿では,WhisperエンコーダとYi-6Bの事前学習機能を利用する。
実験結果から,1層モジュールと100時間の音声テキストマルチタスクコーパスでモーダルアライメントを実現することができることがわかった。
さらに、推論中にYi-6Bを人間の好みに合わせたYi-6B-Chatに置き換え、アライメント能力も適用可能であることを明らかにする。
さらに、特異値分解(SVD)によって明らかにされるアライメント部分空間は、線形アライメント部分空間がスパースであることを意味しており、音声プリントやビデオのような他の特徴を結合してモダリティを拡張する可能性を残している。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities [6.9522425458326635]
独立に訓練された単調デコーダから多モード生成モデルを柔軟に構成するマルチトワーデコーダアーキテクチャを提案する。
提案アーキテクチャは,テキスト音声データに制限のあるシナリオにおいて,非常に競争力のある性能を示す。
出力モダリティが音声であるTTS(text-to-Speech Generation)のようなクロスモーダルなタスクでは、事前訓練された音声バックボーンを使用することで、ベースラインよりも優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T00:23:55Z) - Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair [25.492954759111708]
同時機械翻訳(SiMT)システムにおいて、SIコーパスを用いた訓練は高品質で低レイテンシなシステムを実現する効果的な方法である。
本稿では,既存の音声翻訳コーパスを解釈型データに変換し,原語順を維持し,大言語モデル(LLM-SI-Corpus)を用いてソースコンテンツ全体を保存する手法を提案する。
LLM-SI-Corpusを用いたテキスト・テキスト・音声・テキスト設定における微調整SiMTモデルは、オフラインデータセットでトレーニングされたモデルと同じ品質を維持しながら、レイテンシを低減することを実証する。
論文 参考訳(メタデータ) (2024-04-18T16:24:12Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。