論文の概要: Cross-Lingual IPA Contrastive Learning for Zero-Shot NER
- arxiv url: http://arxiv.org/abs/2503.07214v1
- Date: Mon, 10 Mar 2025 11:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:23.873098
- Title: Cross-Lingual IPA Contrastive Learning for Zero-Shot NER
- Title(参考訳): ゼロショットNERのための言語横断型IPAコントラスト学習
- Authors: Jimin Sohn, David R. Mortensen,
- Abstract要約: IPA文字起こしにおける音素表現のギャップを減らすことで、高ソース言語で訓練されたモデルが低リソース言語で効果的に実行できるかを検討する。
提案手法は,最高性能のベースラインと比較して,実質的な平均ゲインを示す。
- 参考スコア(独自算出の注目度): 7.788300011344196
- License:
- Abstract: Existing approaches to zero-shot Named Entity Recognition (NER) for low-resource languages have primarily relied on machine translation, whereas more recent methods have shifted focus to phonemic representation. Building upon this, we investigate how reducing the phonemic representation gap in IPA transcription between languages with similar phonetic characteristics enables models trained on high-resource languages to perform effectively on low-resource languages. In this work, we propose CONtrastive Learning with IPA (CONLIPA) dataset containing 10 English and high resource languages IPA pairs from 10 frequently used language families. We also propose a cross-lingual IPA Contrastive learning method (IPAC) using the CONLIPA dataset. Furthermore, our proposed dataset and methodology demonstrate a substantial average gain when compared to the best performing baseline.
- Abstract(参考訳): 低リソース言語に対する既存のゼロショット名前付きエンティティ認識(NER)アプローチは主に機械翻訳に依存しているが、近年では音声表現に焦点を移している。
そこで本研究では,同種の音声特徴を持つ言語間でのIPA転写における音素表現のギャップを減らして,低リソース言語で学習したモデルが,低リソース言語で効果的に動作できるようにする方法について検討する。
本研究では,多用される10の言語群から10の英語と高資源言語を含むContrastive Learning with IPA(CONLIPA)データセットを提案する。
また,CONLIPAデータセットを用いた言語横断型IPAコントラスト学習法(IPAC)を提案する。
さらに,提案手法は,最高性能のベースラインと比較して,実質的な平均ゲインを示した。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - PolyIPA -- Multilingual Phoneme-to-Grapheme Conversion Model [0.0]
PolyIPAは、多言語名の文字化のために設計された、新しい多言語音素-音素変換モデルである。
データ拡張のために2つのヘルパーモデルが開発されている。言語間での音響類似性を見つけるためのIPA2vecと、音素表記のバリエーションを扱うための類似IPAである。
このモデルは平均的な文字誤り率 0.055 と文字レベルのBLEUスコア 0.914 を達成し、特に浅い正書法を持つ言語では高い性能を示す。
論文 参考訳(メタデータ) (2024-12-12T09:29:59Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Language-universal phonetic encoder for low-resource speech recognition [28.21805271848413]
我々は、低リソースのASR性能を改善するために、International Phonetic Alphabet (IPA) ベースの言語ユニバーサル音声モデルを活用する。
我々のアプローチと適応は、ドメインや言語ミスマッチしたシナリオであっても、極端に低リソースな言語に有効です。
論文 参考訳(メタデータ) (2023-05-19T10:24:30Z) - Revisiting IPA-based Cross-lingual Text-to-speech [11.010299086810994]
International Phonetic Alphabet (IPA) は、言語間音声のクローニング(CL VC)を実現するために、TTS (cross-lingual text-to-speech) で広く使われている。
本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。
実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。
論文 参考訳(メタデータ) (2021-10-14T07:22:23Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。