論文の概要: Sentence-Level Multimodal and Language-Agnostic Representations
- arxiv url: http://arxiv.org/abs/2308.11466v1
- Date: Tue, 22 Aug 2023 14:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:49:03.167613
- Title: Sentence-Level Multimodal and Language-Agnostic Representations
- Title(参考訳): 文レベルマルチモーダルと言語非依存表現
- Authors: Paul-Ambroise Duquenne, Holger Schwenk, Beno\^it Sagot
- Abstract要約: 本稿では,新しい多言語および多モーダルな文埋め込み空間であるSONARを紹介する。
200の言語をカバーする1つのテキストエンコーダは、既存の文埋め込みよりも大幅に優れています。
音声セグメントを同じSONAR埋め込み空間に埋め込むには、教師-学生が音声書き起こしデータに基づいて訓練した言語固有の音声エンコーダを使用する。
- 参考スコア(独自算出の注目度): 22.744544108288274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SONAR, a new multilingual and multimodal fixed-size sentence
embedding space. Our single text encoder, covering 200 languages, substantially
outperforms existing sentence embeddings such as LASER3 and LabSE on the xsim
and xsim++ multilingual similarity search tasks. Speech segments can be
embedded in the same SONAR embedding space using language-specific speech
encoders trained in a teacher-student setting on speech transcription data. Our
encoders outperform existing speech encoders on similarity search tasks. We
also provide a text decoder for 200 languages, which allows us to perform
text-to-text and speech-to-text machine translation, including for zero-shot
language and modality combinations. Our text-to-text results are competitive
compared to the state-of-the-art NLLB~1B model, despite the fixed-size
bottleneck representation. Our zero-shot speech-to-text translation results
compare favorably with strong supervised baselines such as Whisper.
- Abstract(参考訳): 本稿では,新しい多言語および多モーダルな文埋め込み空間であるSONARを紹介する。
200の言語をカバーする当社の単一テキストエンコーダは、xsimおよびxsim++の多言語類似性検索タスクにおける laser3 や labse などの既存の文埋め込みを実質的に上回っている。
音声セグメントを同じSONAR埋め込み空間に埋め込むには、教師が書き起こしデータに基づいて学習した言語固有の音声エンコーダを使用する。
我々のエンコーダは類似検索タスクにおいて既存の音声エンコーダより優れている。
200言語用のテキストデコーダも提供しており、ゼロショット言語とモダリティの組み合わせを含む、テキスト対テキストおよび音声対テキスト機械翻訳が可能です。
テキストからテキストまでの結果は,固定サイズのボトルネック表現にもかかわらず,最先端のNLLB~1Bモデルと競合する。
ゼロショット音声対テキスト翻訳の結果は、whisperのような教師付きベースラインと比較した方が良い。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Many-to-Many Spoken Language Translation via Unified Speech and Text
Representation Learning with Unit-to-Unit Translation [39.74625363642717]
自己教師型音声モデルから符号化された音声特徴の量子化表現である音声単位を用いた多言語音声の表現を行う。
そこで本研究では,多言語データに基づいて,ユニット・ツー・ユニット翻訳(UTUT)を目標としたエンコーダ・デコーダ構造モデルを訓練する。
UTUTを用いた1つの事前学習モデルは、音声音声翻訳(STS)、多言語テキスト音声合成(TTS)、テキスト音声翻訳(TTST)などの多言語音声およびテキスト関連タスクに利用できる。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine
Translation [19.332953510406327]
そこで本稿では,翻訳タスクのための音声とテキスト間のゼロショット・クロスモーダル転送を行う手法を提案する。
多言語音声とテキストは、結合した固定サイズ表現空間に符号化される。
言語とモダリティ間のゼロショット変換を可能にするため、これらのマルチモーダルおよびマルチリンガルの固定サイズ表現をデコードするための異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-05-24T17:23:35Z) - SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual
Speech Representation [11.552745999302905]
本稿では,SAMU-XLSRを提案する。
我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。
論文 参考訳(メタデータ) (2022-05-17T08:58:48Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。