論文の概要: AraELECTRA: Pre-Training Text Discriminators for Arabic Language
Understanding
- arxiv url: http://arxiv.org/abs/2012.15516v2
- Date: Sun, 7 Mar 2021 13:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:16:21.856017
- Title: AraELECTRA: Pre-Training Text Discriminators for Arabic Language
Understanding
- Title(参考訳): AraELECTRA:アラビア語理解のための事前学習テキスト識別装置
- Authors: Wissam Antoun, Fady Baly, Hazem Hajj
- Abstract要約: 我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。
我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。
AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in English language representation enabled a more sample-efficient
pre-training task by Efficiently Learning an Encoder that Classifies Token
Replacements Accurately (ELECTRA). Which, instead of training a model to
recover masked tokens, it trains a discriminator model to distinguish true
input tokens from corrupted tokens that were replaced by a generator network.
On the other hand, current Arabic language representation approaches rely only
on pretraining via masked language modeling. In this paper, we develop an
Arabic language representation model, which we name AraELECTRA. Our model is
pretrained using the replaced token detection objective on large Arabic text
corpora. We evaluate our model on multiple Arabic NLP tasks, including reading
comprehension, sentiment analysis, and named-entity recognition and we show
that AraELECTRA outperforms current state-of-the-art Arabic language
representation models, given the same pretraining data and with even a smaller
model size.
- Abstract(参考訳): 英語表現の進歩により、トークン置換を正確に分類するエンコーダ(ELECTRA)を効果的に学習することで、よりサンプル効率のよい事前学習タスクが実現された。
これは、マスクされたトークンを復元するモデルをトレーニングする代わりに、ジェネレータネットワークに置き換えられた破損したトークンと真の入力トークンを区別するために識別器モデルを訓練する。
一方、現在のアラビア語表現アプローチは、マスク言語モデリングによる事前学習のみに依存している。
本稿では,アラエレクトラ(araelectra)というアラビア語表現モデルを開発した。
我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。
我々は,複数のアラビア語nlpタスクにおいて,読み理解,感情分析,名前付きエンティティ認識を含むモデルを評価し,同じ事前学習データとより小さいモデルサイズでアラエレクトラが現在のアラビア語表現モデルよりも優れていることを示す。
関連論文リスト
- Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。