論文の概要: CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition
- arxiv url: http://arxiv.org/abs/2310.11830v1
- Date: Wed, 18 Oct 2023 09:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:48:01.894950
- Title: CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition
- Title(参考訳): CLARA:音声表現獲得のための多言語コントラスト学習
- Authors: Kari A Noriy, Xiaosong Yang, Marcin Budka and Jian Jun Zhang
- Abstract要約: コントラスト学習を用いた多言語音声と音声表現学習のための新しい枠組みを提案する。
データ依存を減らし、多言語間の一般化を改善することにより、多言語コントラストフレームワークを開発する。
本研究の目的は,多言語多言語データから表現表現を自己教師付きで学習することで,感情的次元を符号化する音声表現を開発することである。
- 参考スコア(独自算出の注目度): 5.520654376217889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel framework for multilingual speech and sound
representation learning using contrastive learning. The lack of sizeable
labelled datasets hinders speech-processing research across languages. Recent
advances in contrastive learning provide self-supervised techniques to learn
from unlabelled data. Motivated by reducing data dependence and improving
generalisation across diverse languages and conditions, we develop a
multilingual contrastive framework. This framework enables models to acquire
shared representations across languages, facilitating cross-lingual transfer
with limited target language data.
Additionally, capturing emotional cues within speech is challenging due to
subjective perceptual assessments. By learning expressive representations from
diverse, multilingual data in a self-supervised manner, our approach aims to
develop speech representations that encode emotive dimensions.
Our method trains encoders on a large corpus of multi-lingual audio data.
Data augmentation techniques are employed to expand the dataset. The
contrastive learning approach trains the model to maximise agreement between
positive pairs and minimise agreement between negative pairs. Extensive
experiments demonstrate state-of-the-art performance of the proposed model on
emotion recognition, audio classification, and retrieval benchmarks under
zero-shot and few-shot conditions. This provides an effective approach for
acquiring shared and generalised speech representations across languages and
acoustic conditions while encoding latent emotional dimensions.
- Abstract(参考訳): コントラスト学習を用いた多言語音声と音声表現学習のための新しい枠組みを提案する。
サイズのラベル付きデータセットの欠如は、言語間の音声処理研究を妨げている。
コントラスト学習の最近の進歩は、ラベルなしのデータから学ぶための自己教師あり技術を提供する。
データ依存の低減と多様な言語と条件の一般化に動機づけられ,多言語コントラストフレームワークを開発した。
このフレームワークにより、モデルが言語間で共有表現を取得でき、限られたターゲット言語データによる言語間転送が容易になる。
さらに、主観的知覚評価により、音声中の感情的な手がかりを捉えることは困難である。
本研究の目的は,多言語多言語データから表現表現を自己教師付きで学習することで,感情的次元を符号化する音声表現を開発することである。
本手法は,多言語音声データの大規模コーパス上でエンコーダを訓練する。
データ拡張技術はデータセットの拡張に使用される。
対照的な学習アプローチは、正ペア間の合意を最大化し、負ペア間の合意を最小化するモデルを訓練する。
ゼロショットおよび少数ショット条件下での感情認識,音声分類,検索ベンチマークにおいて,提案モデルの最先端性能が実証された。
これは、潜在感情次元を符号化しながら、言語と音響条件をまたいだ共有および一般化された音声表現を得るための効果的なアプローチを提供する。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Enhancing expressivity transfer in textless speech-to-speech translation [0.0]
既存の最先端システムは、様々な言語で正確に表現力の取得と転送に関して不足している。
本研究では,個別音声単位レベルで動作し,多言語感情の埋め込みを利用する新しい手法を提案する。
対象言語における音声単位のピッチと持続時間を効果的に予測するために,これらの埋め込みがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-10-11T08:07:22Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。