論文の概要: Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes
- arxiv url: http://arxiv.org/abs/2211.05015v1
- Date: Wed, 9 Nov 2022 16:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:46:09.509529
- Title: Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes
- Title(参考訳): 局所構造プローブによる多言語モデルに不可知な言語の検出
- Authors: Louis Clou\^atre and Prasanna Parthasarathi and Amal Zouaq and Sarath
Chandar
- Abstract要約: 我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
- 参考スコア(独自算出の注目度): 15.870989191524094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing better language tools for low-resource and endangered languages is
imperative for equitable growth. Recent progress with massively multilingual
pretrained models has proven surprisingly effective at performing zero-shot
transfer to a wide variety of languages. However, this transfer is not
universal, with many languages not currently understood by multilingual
approaches. It is estimated that only 72 languages possess a "small set of
labeled datasets" on which we could test a model's performance, the vast
majority of languages not having the resources available to simply evaluate
performances on. In this work, we attempt to clarify which languages do and do
not currently benefit from such transfer. To that end, we develop a general
approach that requires only unlabelled text to detect which languages are not
well understood by a cross-lingual model. Our approach is derived from the
hypothesis that if a model's understanding is insensitive to perturbations to
text in a language, it is likely to have a limited understanding of that
language. We construct a cross-lingual sentence similarity task to evaluate our
approach empirically on 350, primarily low-resource, languages.
- Abstract(参考訳): 低リソース言語と絶滅危惧言語のためのより良い言語ツールの提供は、公平な成長に不可欠である。
多言語事前学習モデルによる最近の進歩は、さまざまな言語へのゼロショット転送に驚くほど効果的であることが証明されている。
しかし、この変換は普遍的ではなく、現在多くの言語が多言語的アプローチで理解されていない。
モデルのパフォーマンスをテストできる"小さなラベル付きデータセット"を持つ言語は72言語に過ぎないと推定されています。
本研究では,どの言語が,現在そのような移行の恩恵を受けていないかを明らかにする。
この目的のために,言語間モデルでは理解できない言語を検出するために,ラベルのないテキストのみを必要とする一般的なアプローチを開発した。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に影響を受けないなら、その言語に対する理解が限られている可能性が高いという仮説に由来する。
我々は、言語間類似性タスクを構築し、350言語(主に低リソース言語)で経験的に評価する。
関連論文リスト
- Measuring Cross-lingual Transfer in Bytes [9.011910726620538]
多様な言語からのモデルが、言語横断的な設定で対象言語と類似して動作することを示す。
また,この移行が言語汚染や言語近接と関係がないという証拠も発見された。
我々の実験は、事前学習中に学習した言語に依存しない表現の量を測定する新しい可能性を開いた。
論文 参考訳(メタデータ) (2024-04-12T01:44:46Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Language Chameleon: Transformation analysis between languages using
Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。
結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-09-14T05:20:52Z) - HiJoNLP at SemEval-2022 Task 2: Detecting Idiomaticity of Multiword
Expressions using Multilingual Pretrained Language Models [0.6091702876917281]
本稿では,多言語事前学習言語モデル上でのMWEの文脈的表現からのみ慣用性を検出する手法について述べる。
実験の結果,より大きなモデルの方が慣用性検出に有効であることが確認された。
論文 参考訳(メタデータ) (2022-05-27T01:55:59Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。