論文の概要: IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages?
- arxiv url: http://arxiv.org/abs/2410.02611v1
- Date: Thu, 3 Oct 2024 15:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:12:23.805725
- Title: IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages?
- Title(参考訳): IndicSentEval: 言語特性を符号化する多言語トランスフォーマーモデルをいかに効果的に行うか?
- Authors: Akhilesh Aravapalli, Mounika Marreddy, Subba Reddy Oota, Radhika Mamidi, Manish Gupta,
- Abstract要約: トランスフォーマーベースのモデルは自然言語処理の分野に革命をもたらした。
入力テキストの摂動に直面する言語特性の符号化におけるこれらのモデルはどの程度堅牢か?
本稿では,13の摂動にまたがる8つの言語特性に対して,符号化能力とロバスト性に関する類似の疑問を6つのIndic言語で検討する。
- 参考スコア(独自算出の注目度): 14.77467551053299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have revolutionized the field of natural language processing. To understand why they perform so well and to assess their reliability, several studies have focused on questions such as: Which linguistic properties are encoded by these models, and to what extent? How robust are these models in encoding linguistic properties when faced with perturbations in the input text? However, these studies have mainly focused on BERT and the English language. In this paper, we investigate similar questions regarding encoding capability and robustness for 8 linguistic properties across 13 different perturbations in 6 Indic languages, using 9 multilingual Transformer models (7 universal and 2 Indic-specific). To conduct this study, we introduce a novel multilingual benchmark dataset, IndicSentEval, containing approximately $\sim$47K sentences. Surprisingly, our probing analysis of surface, syntactic, and semantic properties reveals that while almost all multilingual models demonstrate consistent encoding performance for English, they show mixed results for Indic languages. As expected, Indic-specific multilingual models capture linguistic properties in Indic languages better than universal models. Intriguingly, universal models broadly exhibit better robustness compared to Indic-specific models, particularly under perturbations such as dropping both nouns and verbs, dropping only verbs, or keeping only nouns. Overall, this study provides valuable insights into probing and perturbation-specific strengths and weaknesses of popular multilingual Transformer-based models for different Indic languages. We make our code and dataset publicly available [https://tinyurl.com/IndicSentEval}].
- Abstract(参考訳): トランスフォーマーベースのモデルは自然言語処理の分野に革命をもたらした。
それらの性能をよく理解し、信頼性を評価するために、これらのモデルによってどの言語特性がコード化されているか、そしてどの程度まで、いくつかの研究が焦点を当てている。
入力テキストの摂動に直面する言語特性の符号化におけるこれらのモデルはどの程度堅牢か?
しかし、これらの研究は主にBERTと英語に焦点を当てている。
本稿では,9つの多言語トランスフォーマーモデル (7ユニバーサルおよび2インデックス特化モデル) を用いて,13の異なる摂動にまたがる8つの言語特性の符号化能力とロバスト性に関する同様の疑問を考察する。
本研究では,約$$47Kの文を含む新しい多言語ベンチマークデータセットIndicSentEvalを導入する。
驚くべきことに、表面, 構文, 意味的特性の探索解析により、ほとんど全ての多言語モデルが英語の符号化性能を一貫した結果を示す一方で、インディカル言語では混合結果を示すことが明らかとなった。
予想通り、Indic特化多言語モデルは、普遍的なモデルよりも、Indic言語における言語特性を捉えている。
興味深いことに、普遍的なモデルは、特に名詞と動詞の両方を下げたり、動詞のみを下げたり、名詞のみを下げたりといった摂動の下で、インド固有のモデルと比較して、より堅牢性を示す。
本研究は,様々な言語を対象とした多言語トランスフォーマーモデルにおいて,摂動に特有な強みと弱みの探索と探索に関する貴重な知見を提供する。
コードとデータセットを公開しています [https://tinyurl.com/IndicSentEval}]。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Handling Compounding in Mobile Keyboard Input [7.309321705635677]
本稿では,形態的にリッチな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは典型的には、入力復号化、修正、予測といった言語モデルに依存している機能をサポートしている。
本手法は, 様々な複合言語において, 単語誤り率を約20%削減することを示す。
論文 参考訳(メタデータ) (2022-01-17T15:28:58Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Vy\=akarana: A Colorless Green Benchmark for Syntactic Evaluation in
Indic Languages [0.0]
インジケート言語は、豊富なモーフィオシンタックス、文法的ジェンダー、自由な線形単語順序、および高インフレクション型形態学を有する。
Vy=akarana - 多言語言語モデルの構文評価のためのIndic言語における性別バランスの取れたカラーレスグリーン文のベンチマーク。
評価タスクから得られたデータセットを用いて、さまざまなアーキテクチャの5つの多言語言語モデルをIndic言語で調べる。
論文 参考訳(メタデータ) (2021-03-01T09:07:58Z) - RuSentEval: Linguistic Source, Encoder Force! [1.8160945635344525]
ロシア向けの14のプロービングタスクの拡張セットであるRuSentEvalを紹介します。
5つの多言語トランスフォーマーにおける様々な言語特性の分布を探索するために補足的プローブ法の組み合わせを適用した。
その結果,言語知識の表現方法の共通理解に矛盾する興味深い知見が得られた。
論文 参考訳(メタデータ) (2021-02-28T17:43:42Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。