Fugu-MT 論文翻訳(概要): Mitigating the Linguistic Gap with Phonemic Representations for Robust Multilingual Language Understanding

論文の概要: Mitigating the Linguistic Gap with Phonemic Representations for Robust Multilingual Language Understanding

arxiv url: http://arxiv.org/abs/2402.14279v1
Date: Thu, 22 Feb 2024 04:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 16:20:32.573269
Title: Mitigating the Linguistic Gap with Phonemic Representations for Robust Multilingual Language Understanding
Title（参考訳）: 頑健な多言語理解のための音韻表現による言語間ギャップの緩和
Authors: Haeji Jung, Changdae Oh, Jooeon Kang, Jimin Sohn, Kyungwoo Song, Jinkyu Kim, David R. Mortensen
Abstract要約: 言語間のパフォーマンスギャップは、言語間の言語ギャップの影響を受けます。音声表現の有効性を実証する3つの言語間タスクから証拠を提示する。
参考スコア（独自算出の注目度）: 27.318574025851994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Approaches to improving multilingual language understanding often require multiple languages during the training phase, rely on complicated training techniques, and -- importantly -- struggle with significant performance gaps between high-resource and low-resource languages. We hypothesize that the performance gaps between languages are affected by linguistic gaps between those languages and provide a novel solution for robust multilingual language modeling by employing phonemic representations (specifically, using phonemes as input tokens to LMs rather than subwords). We present quantitative evidence from three cross-lingual tasks that demonstrate the effectiveness of phonemic representation, which is further justified by a theoretical analysis of the cross-lingual performance gap.
Abstract（参考訳）: 多言語言語理解を改善するには、トレーニングフェーズ中に複数の言語が必要になることが少なく、複雑なトレーニング技術に依存することが少なくない。言語間の性能格差は言語間の言語的ギャップの影響を受けており、音韻表現(特に音素をサブワードではなくLMへの入力トークンとして用いる)を用いて、堅牢な多言語言語モデリングのための新しいソリューションを提供する。本稿では,言語間パフォーマンスギャップの理論解析により,音韻表現の有効性を示す3つの言語間タスクの定量的証拠を提示する。

関連論文リスト

High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。多言語 LLM は非一貫性な言語間アライメントを示す。
論文参考訳（メタデータ） (2025-03-14T10:39:27Z)
Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis [7.751856268560216]
本稿では,低音源言語における音声処理における言語的類似性が言語間音声表現に与える影響について検討する。音韻学的に類似した言語を使用すると、単言語訓練よりも55.6%の相対的な改善が達成される。
論文参考訳（メタデータ） (2025-01-12T13:29:24Z)
Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space [6.6635650150737815]
本研究では,MLLMが生成する各言語表現空間の絶対的進化について検討する。本稿では,言語的特徴の役割に特に重点を置いて,表現空間への影響と言語間移動性能との関連について検討する。
論文参考訳（メタデータ） (2023-05-03T14:33:23Z)
Improving Neural Cross-Lingual Summarization via Employing Optimal Transport Distance for Knowledge Distillation [8.718749742587857]
言語間の要約モデルは、2つの言語のトークン間での自己認識機構に依存している。本稿では,言語間要約のための知識蒸留に基づく新しいフレームワークを提案する。提案手法は,高解像度および低出力の条件下での最先端モデルよりも優れる。
論文参考訳（メタデータ） (2021-12-07T03:45:02Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文参考訳（メタデータ） (2021-06-16T18:13:55Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)
On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文参考訳（メタデータ） (2020-10-06T20:48:58Z)
Cross-lingual Spoken Language Understanding with Regularized Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-09-30T08:56:53Z)
Learning Robust and Multilingual Speech Representations [38.34632996576116]
我々は最大8000時間に及ぶ多彩でノイズの多い音声データから表現を学習する。ドメインシフトに対する頑健さと,多くの言語で認識性能を向上させる能力について検討し,その表現性を評価する。
論文参考訳（メタデータ） (2020-01-29T23:24:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。