論文の概要: Interpreting Arabic Transformer Models
- arxiv url: http://arxiv.org/abs/2201.07434v1
- Date: Wed, 19 Jan 2022 06:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 21:18:43.522440
- Title: Interpreting Arabic Transformer Models
- Title(参考訳): アラビア語トランスフォーマーモデルの解釈
- Authors: Ahmed Abdelali, Nadir Durrani, Fahim Dalvi, and Hassan Sajjad
- Abstract要約: 我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
- 参考スコア(独自算出の注目度): 18.98681439078424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic is a Semitic language which is widely spoken with many dialects. Given
the success of pre-trained language models, many transformer models trained on
Arabic and its dialects have surfaced. While these models have been compared
with respect to downstream NLP tasks, no evaluation has been carried out to
directly compare the internal representations. We probe how linguistic
information is encoded in Arabic pretrained models, trained on different
varieties of Arabic language. We perform a layer and neuron analysis on the
models using three intrinsic tasks: two morphological tagging tasks based on
MSA (modern standard Arabic) and dialectal POS-tagging and a dialectal
identification task. Our analysis enlightens interesting findings such as: i)
word morphology is learned at the lower and middle layers ii) dialectal
identification necessitate more knowledge and hence preserved even in the final
layers, iii) despite a large overlap in their vocabulary, the MSA-based models
fail to capture the nuances of Arabic dialects, iv) we found that neurons in
embedding layers are polysemous in nature, while the neurons in middle layers
are exclusive to specific properties.
- Abstract(参考訳): アラビア語はセム語であり、多くの方言で広く話されている。
事前訓練された言語モデルの成功を踏まえ、アラビア語とその方言で訓練された多くのトランスフォーマーモデルが浮上した。
これらのモデルは下流のnlpタスクについて比較されてきたが、内部表現を直接比較する評価は行われていない。
アラビア語の異なる種類で訓練されたアラビア語の事前学習モデルにおいて, 言語情報がどのようにエンコードされているかを調べる。
本研究は,msa(現代標準アラビア語)に基づく2つの形態的タギングタスクと,方言的posタグと弁別識別タスクを用いて,モデルにおける層およびニューロンの解析を行う。
私たちの分析は、次のような興味深い発見を啓蒙する。
一 下層及び中層で語の形態について学ぶこと
二 方言の識別は、より多くの知識を必要とし、従って最終層でも保存する。
三 語彙の重複が大きいにもかかわらず、MSAベースのモデルは、アラビア語方言のニュアンスを捉えない。
iv) 埋め込み層内のニューロンは自然界において多義的であるのに対し, 中間層内のニューロンは特定の性質に限定していることがわかった。
関連論文リスト
- AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Parameter and Data Efficient Continual Pre-training for Robustness to
Dialectal Variance in Arabic [9.004920233490642]
多言語BERT(mBERT)がアラビア語単言語データに漸進的に事前訓練されることは、トレーニング時間が少なく、我々のカスタム単言語単言語モデルと比較すると、同等の精度が得られることを示す。
次に,(1)少数の方言データを用いて連続的な微調整を行い,(2)アラビア語から英語への平行なデータと翻訳言語モデリング損失関数を探索する。
論文 参考訳(メタデータ) (2022-11-08T02:51:57Z) - Post-hoc analysis of Arabic transformer models [20.741730718486032]
我々は、アラビア語の異なる方言で訓練されたトランスフォーマーモデルにおいて、言語情報がどのようにコード化されているかを探る。
アラビア語の異なる方言に対する形態的タグ付けタスクと方言識別タスクを用いて、モデル上で層とニューロン分析を行う。
論文 参考訳(メタデータ) (2022-10-18T16:53:51Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。