Fugu-MT 論文翻訳(概要): Mitigating the Linguistic Gap with Phonemic Representations for Robust Cross-lingual Transfer

論文の概要: Mitigating the Linguistic Gap with Phonemic Representations for Robust Cross-lingual Transfer

arxiv url: http://arxiv.org/abs/2402.14279v2
Date: Fri, 11 Oct 2024 07:01:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.94628
Title: Mitigating the Linguistic Gap with Phonemic Representations for Robust Cross-lingual Transfer
Title（参考訳）: ロバストな言語間移動のための音韻表現による言語ギャップの緩和
Authors: Haeji Jung, Changdae Oh, Jooeon Kang, Jimin Sohn, Kyungwoo Song, Jinkyu Kim, David R. Mortensen,
Abstract要約: 多言語理解の改善へのアプローチは、高リソース言語と低リソース言語の間の大きなパフォーマンスギャップに悩まされることが多い。本研究は,12言語を対象とした3つの言語間タスクに関する実験である。音韻表現は、正書法表現と比較して言語間の類似性が高い。
参考スコア（独自算出の注目度）: 26.014079273740485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Approaches to improving multilingual language understanding often struggle with significant performance gaps between high-resource and low-resource languages. While there are efforts to align the languages in a single latent space to mitigate such gaps, how different input-level representations influence such gaps has not been investigated, particularly with phonemic inputs. We hypothesize that the performance gaps are affected by representation discrepancies between these languages, and revisit the use of phonemic representations as a means to mitigate these discrepancies. To demonstrate the effectiveness of phonemic representations, we present experiments on three representative cross-lingual tasks on 12 languages in total. The results show that phonemic representations exhibit higher similarities between languages compared to orthographic representations, and it consistently outperforms grapheme-based baseline model on languages that are relatively low-resourced. We present quantitative evidence from three cross-lingual tasks that demonstrate the effectiveness of phonemic representations, and it is further justified by a theoretical analysis of the cross-lingual performance gap.
Abstract（参考訳）: 多言語理解の改善へのアプローチは、高リソース言語と低リソース言語の間の大きなパフォーマンスギャップに悩まされることが多い。このようなギャップを緩和するために、単一の潜在空間に言語を整合させる試みがあるが、特に音素入力では、入力レベルの異なる表現がそのようなギャップにどのように影響するかは研究されていない。性能差はこれらの言語間の表現の相違によって影響を受けると仮定し、これらの相違を緩和する手段として音韻表現の使用を再考する。音韻表現の有効性を示すために,12言語を対象とした3つの言語間タスクについて実験を行った。その結果, 音素表現は正書法表現と比較して言語間の類似性が高く, 比較的低リソースの言語において, グラテムベースベースラインモデルよりも一貫して優れていた。音韻表現の有効性を示す3つの言語間タスクの量的証拠を提示し、言語間性能ギャップの理論的解析によりさらに正当化する。

関連論文リスト

High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。多言語 LLM は非一貫性な言語間アライメントを示す。
論文参考訳（メタデータ） (2025-03-14T10:39:27Z)
Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis [7.751856268560216]
本稿では,低音源言語における音声処理における言語的類似性が言語間音声表現に与える影響について検討する。音韻学的に類似した言語を使用すると、単言語訓練よりも55.6%の相対的な改善が達成される。
論文参考訳（メタデータ） (2025-01-12T13:29:24Z)
Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space [6.6635650150737815]
本研究では,MLLMが生成する各言語表現空間の絶対的進化について検討する。本稿では,言語的特徴の役割に特に重点を置いて,表現空間への影響と言語間移動性能との関連について検討する。
論文参考訳（メタデータ） (2023-05-03T14:33:23Z)
Improving Neural Cross-Lingual Summarization via Employing Optimal Transport Distance for Knowledge Distillation [8.718749742587857]
言語間の要約モデルは、2つの言語のトークン間での自己認識機構に依存している。本稿では,言語間要約のための知識蒸留に基づく新しいフレームワークを提案する。提案手法は,高解像度および低出力の条件下での最先端モデルよりも優れる。
論文参考訳（メタデータ） (2021-12-07T03:45:02Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文参考訳（メタデータ） (2021-06-16T18:13:55Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)
On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文参考訳（メタデータ） (2020-10-06T20:48:58Z)
Cross-lingual Spoken Language Understanding with Regularized Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-09-30T08:56:53Z)
Learning Robust and Multilingual Speech Representations [38.34632996576116]
我々は最大8000時間に及ぶ多彩でノイズの多い音声データから表現を学習する。ドメインシフトに対する頑健さと,多くの言語で認識性能を向上させる能力について検討し,その表現性を評価する。
論文参考訳（メタデータ） (2020-01-29T23:24:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。