論文の概要: Supporting Undotted Arabic with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2111.09791v1
- Date: Thu, 18 Nov 2021 16:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 18:04:37.771458
- Title: Supporting Undotted Arabic with Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルによる未学習アラビア語のサポート
- Authors: Aviad Rom and Kfir Bar
- Abstract要約: 本研究では,事前学習したアラビア語モデルを適用したアラビア語の「未収録」テキストに対する効果について検討する。
そこで本研究では,事前学習したモデルを用いて未分類のテキストをサポートする方法をいくつか提案し,その性能を2つのアラビア自然言語処理タスクで測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe a recent behaviour on social media, in which users intentionally
remove consonantal dots from Arabic letters, in order to bypass
content-classification algorithms. Content classification is typically done by
fine-tuning pre-trained language models, which have been recently employed by
many natural-language-processing applications. In this work we study the effect
of applying pre-trained Arabic language models on "undotted" Arabic texts. We
suggest several ways of supporting undotted texts with pre-trained models,
without additional training, and measure their performance on two Arabic
natural-language-processing downstream tasks. The results are encouraging; in
one of the tasks our method shows nearly perfect performance.
- Abstract(参考訳): 我々は,コンテンツ分類アルゴリズムをバイパスするために,アラビア語文字から意図的に子音点を取り除いたソーシャルメディア上での最近の行動を観察した。
コンテンツの分類は通常、事前学習された言語モデルによって行われ、近年多くの自然言語処理アプリケーションで採用されている。
本研究では,事前学習されたアラビア語モデルが「未熟な」アラビア語テキストに与える影響について検討する。
我々は,事前学習されたモデルで未学習のテキストをサポートするいくつかの方法を提案し,その性能をアラビア語自然言語処理のダウンストリームタスクで測定する。
私たちのメソッドのタスクの1つは、ほぼ完璧なパフォーマンスを示しています。
関連論文リスト
- Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - AraELECTRA: Pre-Training Text Discriminators for Arabic Language
Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。
我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。
AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文 参考訳(メタデータ) (2020-12-31T09:35:39Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - BERT Fine-tuning For Arabic Text Summarization [0.0]
我々のモデルは多言語BERTで動作する(アラビア語は独自の事前訓練されたBERTを持っていないため)。
本研究は、アラビア語コーパスに適用する前に、英語コーパスにおいて、抽出タスクと抽象タスクの両方でその性能を示す。
論文 参考訳(メタデータ) (2020-03-29T20:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。