Fugu-MT 論文翻訳(概要): Do Multi-Lingual Pre-trained Language Models Reveal Consistent Token Attributions in Different Languages?

論文の概要: Do Multi-Lingual Pre-trained Language Models Reveal Consistent Token Attributions in Different Languages?

arxiv url: http://arxiv.org/abs/2112.12356v1
Date: Thu, 23 Dec 2021 04:40:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-24 14:52:49.881151
Title: Do Multi-Lingual Pre-trained Language Models Reveal Consistent Token Attributions in Different Languages?
Title（参考訳）: 複数言語による事前学習型言語モデルでは、異なる言語における一貫した帰属が示されるか?
Authors: Junxiang Wang, Xuchao Zhang, Bo Zong, Yanchi Liu, Wei Cheng, Jingchao Ni, Haifeng Chen, Liang Zhao
Abstract要約: 多言語 PLM が異なる言語で一貫したトークン属性を示すかどうかは不明である。 3つの下流タスクにおける広範囲な実験により、多言語 PLM は多言語同義語に大きく異なる属性を割り当てることを示した。スペイン語は、PLMのトレーニングに使用される際、異なる言語で最も一貫性のあるトークン属性を達成している。
参考スコア（独自算出の注目度）: 42.47155960879255
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: During the past several years, a surge of multi-lingual Pre-trained Language Models (PLMs) has been proposed to achieve state-of-the-art performance in many cross-lingual downstream tasks. However, the understanding of why multi-lingual PLMs perform well is still an open domain. For example, it is unclear whether multi-Lingual PLMs reveal consistent token attributions in different languages. To address this, in this paper, we propose a Cross-lingual Consistency of Token Attributions (CCTA) evaluation framework. Extensive experiments in three downstream tasks demonstrate that multi-lingual PLMs assign significantly different attributions to multi-lingual synonyms. Moreover, we have the following observations: 1) the Spanish achieves the most consistent token attributions in different languages when it is used for training PLMs; 2) the consistency of token attributions strongly correlates with performance in downstream tasks.
Abstract（参考訳）: 過去数年間、多言語事前学習言語モデル(PLM)の急増は、多くの言語横断下流タスクにおいて最先端のパフォーマンスを達成するために提案されてきた。しかし、多言語plmがうまく機能する理由の理解はまだオープンドメインである。例えば、多言語 PLM が異なる言語で一貫したトークン属性を示すかどうかは不明である。そこで本稿では,トークン属性の言語間一致(CCTA)評価フレームワークを提案する。 3つの下流タスクにおける広範囲な実験により、多言語 PLM は多言語同義語に大きく異なる属性を割り当てることを示した。さらに、次のような観察がある。 1) スペイン語は,PLMを訓練する際に,異なる言語において最も一貫したトークン属性を達成する。 2) トークン属性の整合性は下流タスクのパフォーマンスと強く相関する。

関連論文リスト

Linguistic Entity Masking to Improve Cross-Lingual Representation of Multilingual Language Models for Low-Resource Languages [1.131401554081614]
本稿では,新しいマスキング戦略であるLingguistic Entity Masking (LEM)を導入し,継続事前学習のステップで使用する。 LEMは、動詞、名詞、名前付き実体にマスキングを制限し、文中に高い優位性を保持する。我々は3つの下流タスク,すなわちbitext mining, parallel data curation, code-mixed sentiment analysis を用いて LEM の有効性を評価する。
論文参考訳（メタデータ） (2025-01-10T04:17:58Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文参考訳（メタデータ） (2023-11-15T16:13:14Z)
Don't Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文参考訳（メタデータ） (2023-05-24T02:05:03Z)
Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。 LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文参考訳（メタデータ） (2023-05-23T16:50:48Z)
VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文参考訳（メタデータ） (2023-04-17T12:23:41Z)
Multi-level Distillation of Semantic Knowledge for Pre-training Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文参考訳（メタデータ） (2022-11-02T15:23:13Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)
CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文参考訳（メタデータ） (2020-06-11T13:15:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。