論文の概要: A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2406.12141v1
- Date: Mon, 17 Jun 2024 23:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:28:06.636755
- Title: A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding
- Title(参考訳): 音声理解のための多言語意味音声エンコーダの微調整のための二重タスク学習手法
- Authors: Gaëlle Laperrière, Sahar Ghannay, Bassam Jabaian, Yannick Estève,
- Abstract要約: 自己指導型学習は、音声言語理解のための発話を効率的に表現するために広く利用されている。
テキストSSLモデルは言語に依存しないセマンティクスを符号化するために提案されている。
SAMU-XLSRフレームワークはこの意味情報を多言語音声表現の強化に用いた。
- 参考スコア(独自算出の注目度): 12.887586659035497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning is vastly used to efficiently represent speech for Spoken Language Understanding, gradually replacing conventional approaches. Meanwhile, textual SSL models are proposed to encode language-agnostic semantics. SAMU-XLSR framework employed this semantic information to enrich multilingual speech representations. A recent study investigated SAMU-XLSR in-domain semantic enrichment by specializing it on downstream transcriptions, leading to state-of-the-art results on a challenging SLU task. This study's interest lies in the loss of multilingual performances and lack of specific-semantics training induced by such specialization in close languages without any SLU implication. We also consider SAMU-XLSR's loss of initial cross-lingual abilities due to a separate SLU fine-tuning. Therefore, this paper proposes a dual task learning approach to improve SAMU-XLSR semantic enrichment while considering distant languages for multilingual and language portability experiments.
- Abstract(参考訳): 自己指導型学習は、音声言語理解のための発話を効率よく表現するために広く用いられ、従来のアプローチを徐々に置き換えている。
一方、言語に依存しないセマンティクスを符号化するテキストSSLモデルが提案されている。
SAMU-XLSRフレームワークはこの意味情報を多言語音声表現の強化に用いた。
最近の研究では、SAMU-XLSRのドメイン内セマンティックエンリッチメントについて、下流の転写に特化して検討し、挑戦的なSLUタスクにおける最先端の結果をもたらした。
本研究の関心は、SLUを含まない近接言語におけるそのような特殊化によって引き起こされる多言語パフォーマンスの喪失と特異意味訓練の欠如にある。
また,SAMU-XLSRの初期言語間能力の喪失は,SLUファインチューニングの分離によるものであると考えられた。
そこで本稿では,多言語および言語可搬性実験のための遠隔言語を考察しながら,SAMU-XLSRセマンティックエンリッチメントを改善するための2つのタスク学習手法を提案する。
関連論文リスト
- No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Semantic enrichment towards efficient speech representations [9.30840529284715]
本研究では,SAMU-XLSRモデルのドメイン内セマンティックエンリッチメントについて検討する。
我々は、低リソース言語移植性のために、同じドメインのフランス語とイタリア語のベンチマークを使用することの利点を示す。
論文 参考訳(メタデータ) (2023-07-03T19:52:56Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual
Speech Representation [11.552745999302905]
本稿では,SAMU-XLSRを提案する。
我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。
論文 参考訳(メタデータ) (2022-05-17T08:58:48Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。