Fugu-MT 論文翻訳(概要): AfroXLMR-Social: Adapting Pre-trained Language Models for African Languages Social Media Text

論文の概要: AfroXLMR-Social: Adapting Pre-trained Language Models for African Languages Social Media Text

arxiv url: http://arxiv.org/abs/2503.18247v2
Date: Tue, 20 May 2025 20:35:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.006472
Title: AfroXLMR-Social: Adapting Pre-trained Language Models for African Languages Social Media Text
Title（参考訳）: AfroXLMR-Social:アフリカ語ソーシャルメディアテキストに対する事前学習言語モデルの適用
Authors: Tadesse Destaw Belay, Israel Abebe Azime, Ibrahim Said Ahmad, David Ifeoluwa Adelani, Idris Abdulmumin, Abinew Ali Ayele, Shamsuddeen Hassan Muhammad, Seid Muhie Yimam,
Abstract要約: ドメイン適応型プレトレーニング(DAPT)とタスク適応型プレトレーニング(TAPT)は、このバイアスを減らすために一般的なテクニックである。 AfriSocialは、アフリカの複数の言語で継続的な事前トレーニングを行うための、大規模ソーシャルメディアおよびニュースドメインコーパスである。
参考スコア（独自算出の注目度）: 9.291246266015142
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models built from various sources are the foundation of today's NLP progress. However, for many low-resource languages, the diversity of domains is often limited -- more biased to a religious domain, which impacts their performance when evaluated on distant and rapidly evolving domains such as social media. Domain adaptive pre-training (DAPT) and task-adaptive pre-training (TAPT) are popular techniques to reduce this bias through continual pre-training for BERT-based models, but they have not been explored for African multilingual encoders. In this paper, we explore DAPT and TAPT continual pertaining approaches for the African languages social media domain. We introduce AfriSocial-a large-scale social media and news domain corpus for continual pre-training on several African languages. Leveraging AfriSocial, we show that DAPT consistently improves performance on three subjective tasks: sentiment analysis, multi-label emotion, and hate speech classification, covering 19 languages from 1% to 30% F1 score. Similarly, leveraging TAPT on one task data improves performance on other related tasks. For example, training with unlabeled sentiment data (source) for a fine-grained emotion classification task (target) improves the baseline results by an F1 score ranging from 0.55% to 15.11%. Combining these two methods (i.e. DAPT + TAPT) further improves the overall performance.
Abstract（参考訳）: 様々なソースから構築された言語モデルは、今日のNLP進歩の基盤となっている。しかし、多くの低リソース言語では、ドメインの多様性は制限されることが多く、より宗教的なドメインに偏っている。領域適応型事前訓練(DAPT)とタスク適応型事前訓練(TAPT)は、BERTベースのモデルに対する連続的な事前訓練によってこのバイアスを低減するために一般的な手法であるが、アフリカの多言語エンコーダでは研究されていない。本稿では,アフリカ語ソーシャルメディアドメインにおけるDAPTとTAPTの継続的アプローチについて検討する。アフリカ諸言語での継続事前学習のための大規模ソーシャルメディアおよびニュースドメインコーパスであるAfriSocialを紹介する。 AfriSocialを活用することで、DAPTは感情分析、マルチラベル感情、ヘイトスピーチ分類という3つの主観的タスクのパフォーマンスを継続的に改善し、19の言語を1%から30%のF1スコアでカバーすることを示した。同様に、あるタスクデータにTAPTを利用すると、他のタスクのパフォーマンスが向上する。例えば、微粒な感情分類タスク(ターゲット)のためのラベルなし感情データ(ソース)によるトレーニングは、0.55%から15.11%までのF1スコアでベースライン結果を改善する。これら2つの手法(DAPT + TAPT)を組み合わせることで、全体的なパフォーマンスが向上する。

関連論文リスト

Improving Multilingual Math Reasoning for African Languages [49.27985213689457]
データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文参考訳（メタデータ） (2025-05-26T11:35:01Z)
Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。データ収集とアノテーションプロセスに関する課題を強調します。 BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning [5.119396962985841]
中間的タスク伝達学習はモデル性能を大幅に向上させることができる。 12kのソース・ターゲット対を用いたNLPタスク転送性とタスク選択に関する最大の研究を行う。事前の手法でESMを適用すると、それぞれ10と278の因子による実行時間とディスクスペースの使用量が減少する。
論文参考訳（メタデータ） (2024-10-19T16:22:04Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文参考訳（メタデータ） (2023-10-08T04:44:36Z)
Pre-Trained Language-Meaning Models for Multilingual Parsing and Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。 DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T19:00:33Z)
NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language Selection for Low-Resource Multilingual Sentiment Analysis [11.05909046179595]
本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカの言語に対する感性分析」のために開発したシステムについて述べる。対象言語とタスクに事前訓練されたモデルを適用すると、小さいが関連するコーパスを使うことで、F1スコア以上のパフォーマンスが著しく向上する。共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
論文参考訳（メタデータ） (2023-04-28T21:02:58Z)
Rationale-Guided Few-Shot Classification to Detect Abusive Language [5.977278650516324]
乱用言語検出のためのRGFS(Rationale-Guided Few-Shot Classification)を提案する。 2つの理性統合BERTアーキテクチャ(RGFSモデル)を導入し、5つの異なる乱用言語データセット上でシステムを評価する。
論文参考訳（メタデータ） (2022-11-30T14:47:14Z)
AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。 AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。様々な領域にまたがってうまく一般化することができる。
論文参考訳（メタデータ） (2022-11-07T02:15:25Z)
MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文参考訳（メタデータ） (2022-10-22T08:53:14Z)
KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文参考訳（メタデータ） (2022-04-22T08:11:59Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Improved Multilingual Language Model Pretraining for Social Media Text via Translation Pair Prediction [1.14219428942199]
ソーシャルメディアコーパス上でmBERTのゼロショット多言語移動を改善するための簡単なアプローチを評価する。提案手法は,ソースターゲット言語間の翻訳へのアクセスを前提としている。英語からヒンディー語,アラビア語,日本語へのゼロショット移行において,mBERT単独でのTPP事前訓練の改善を示す。
論文参考訳（メタデータ） (2021-10-20T00:06:26Z)
XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文参考訳（メタデータ） (2021-04-15T12:26:12Z)
Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文参考訳（メタデータ） (2020-11-16T21:49:00Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文参考訳（メタデータ） (2020-10-07T17:47:53Z)
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文参考訳（メタデータ） (2020-04-23T04:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。