論文の概要: Mitigating the Linguistic Gap with Phonemic Representations for Robust
Multilingual Language Understanding
- arxiv url: http://arxiv.org/abs/2402.14279v1
- Date: Thu, 22 Feb 2024 04:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:20:32.573269
- Title: Mitigating the Linguistic Gap with Phonemic Representations for Robust
Multilingual Language Understanding
- Title(参考訳): 頑健な多言語理解のための音韻表現による言語間ギャップの緩和
- Authors: Haeji Jung, Changdae Oh, Jooeon Kang, Jimin Sohn, Kyungwoo Song,
Jinkyu Kim, David R. Mortensen
- Abstract要約: 言語間のパフォーマンスギャップは、言語間の言語ギャップの影響を受けます。
音声表現の有効性を実証する3つの言語間タスクから証拠を提示する。
- 参考スコア(独自算出の注目度): 27.318574025851994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approaches to improving multilingual language understanding often require
multiple languages during the training phase, rely on complicated training
techniques, and -- importantly -- struggle with significant performance gaps
between high-resource and low-resource languages. We hypothesize that the
performance gaps between languages are affected by linguistic gaps between
those languages and provide a novel solution for robust multilingual language
modeling by employing phonemic representations (specifically, using phonemes as
input tokens to LMs rather than subwords). We present quantitative evidence
from three cross-lingual tasks that demonstrate the effectiveness of phonemic
representation, which is further justified by a theoretical analysis of the
cross-lingual performance gap.
- Abstract(参考訳): 多言語言語理解を改善するには、トレーニングフェーズ中に複数の言語が必要になることが少なく、複雑なトレーニング技術に依存することが少なくない。
言語間の性能格差は言語間の言語的ギャップの影響を受けており、音韻表現(特に音素をサブワードではなくLMへの入力トークンとして用いる)を用いて、堅牢な多言語言語モデリングのための新しいソリューションを提供する。
本稿では,言語間パフォーマンスギャップの理論解析により,音韻表現の有効性を示す3つの言語間タスクの定量的証拠を提示する。
関連論文リスト
- Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space [6.6635650150737815]
本研究では,MLLMが生成する各言語表現空間の絶対的進化について検討する。
本稿では,言語的特徴の役割に特に重点を置いて,表現空間への影響と言語間移動性能との関連について検討する。
論文 参考訳(メタデータ) (2023-05-03T14:33:23Z) - Improving Neural Cross-Lingual Summarization via Employing Optimal
Transport Distance for Knowledge Distillation [8.718749742587857]
言語間の要約モデルは、2つの言語のトークン間での自己認識機構に依存している。
本稿では,言語間要約のための知識蒸留に基づく新しいフレームワークを提案する。
提案手法は,高解像度および低出力の条件下での最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2021-12-07T03:45:02Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Learning Robust and Multilingual Speech Representations [38.34632996576116]
我々は最大8000時間に及ぶ多彩でノイズの多い音声データから表現を学習する。
ドメインシフトに対する頑健さと,多くの言語で認識性能を向上させる能力について検討し,その表現性を評価する。
論文 参考訳(メタデータ) (2020-01-29T23:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。