論文の概要: Transforming LLMs into Cross-modal and Cross-lingual Retrieval Systems
- arxiv url: http://arxiv.org/abs/2404.01616v2
- Date: Thu, 4 Apr 2024 01:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:33:07.508336
- Title: Transforming LLMs into Cross-modal and Cross-lingual Retrieval Systems
- Title(参考訳): LLMをクロスモーダルおよびクロスランガル検索システムに変換する
- Authors: Frank Palma Gomez, Ramon Sanabria, Yun-hsuan Sung, Daniel Cer, Siddharth Dalmia, Gustavo Hernandez Abrego,
- Abstract要約: 大規模言語モデル(LLM)は、ペア化された音声とテキストデータを持つ言語を超えた、テキストのみのデータに基づいて訓練される。
マルチモーダルDEM検索システムの初期化にLLMを使うことを提案する。
本システムは,21言語のみを訓練しながら,102言語で音声とテキストをマッチングできる。
- 参考スコア(独自算出の注目度): 16.32944967819047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained on text-only data that go far beyond the languages with paired speech and text data. At the same time, Dual Encoder (DE) based retrieval systems project queries and documents into the same embedding space and have demonstrated their success in retrieval and bi-text mining. To match speech and text in many languages, we propose using LLMs to initialize multi-modal DE retrieval systems. Unlike traditional methods, our system doesn't require speech data during LLM pre-training and can exploit LLM's multilingual text understanding capabilities to match speech and text in languages unseen during retrieval training. Our multi-modal LLM-based retrieval system is capable of matching speech and text in 102 languages despite only training on 21 languages. Our system outperforms previous systems trained explicitly on all 102 languages. We achieve a 10% absolute improvement in Recall@1 averaged across these languages. Additionally, our model demonstrates cross-lingual speech and text matching, which is further enhanced by readily available machine translation data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ペア化された音声とテキストデータを持つ言語を超えた、テキストのみのデータに基づいて訓練される。
同時に、Dual Encoder (DE) ベースの検索システムは、クエリとドキュメントを同じ埋め込み空間に投影し、検索とバイテキストマイニングの成功を実証している。
多くの言語における音声とテキストを一致させるため,マルチモーダルD検索システムを初期化するLLMを提案する。
従来の手法とは異なり,本システムはLLM事前学習中に音声データを必要とせず,LLMの多言語テキスト理解機能を利用して検索訓練中に見つからない言語における音声とテキストのマッチングを行うことができる。
マルチモーダルLLMに基づく検索システムでは,21言語でのみ学習しながら102言語で音声とテキストをマッチングできる。
我々のシステムは、すべての102言語で明示的に訓練された以前のシステムより優れています。
これらの言語で平均されるRecall@1の10%の絶対的な改善を実現しています。
さらに,本モデルでは,機械翻訳データによってさらに拡張された言語間音声とテキストマッチングを実証する。
関連論文リスト
- Speech Recognition Rescoring with Large Speech-Text Foundation Models [20.145389016219106]
大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。
自動音声認識(ASR)システムは、しばしば利用可能な転写音声データによって制限される。
最近の多モーダルな言語モデルでは、強い音声言語理解が示されている。
論文 参考訳(メタデータ) (2024-09-25T06:17:23Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。
本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。
ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文 参考訳(メタデータ) (2024-04-16T21:45:59Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。