論文の概要: Curriculum Learning and Pseudo-Labeling Improve the Generalization of Multi-Label Arabic Dialect Identification Models
- arxiv url: http://arxiv.org/abs/2602.12937v2
- Date: Tue, 17 Feb 2026 11:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 13:57:33.612591
- Title: Curriculum Learning and Pseudo-Labeling Improve the Generalization of Multi-Label Arabic Dialect Identification Models
- Title(参考訳): 複数ラベルアラビア方言識別モデルの一般化のためのカリキュラム学習と擬似ラベル化
- Authors: Ali Mekky, Mohamed El Zeftawy, Lara Hassan, Amr Keleg, Preslav Nakov,
- Abstract要約: アラビア方言識別(ADI)は多ラベル分類タスクとして扱うべきであることを示す。
単一ラベルADIデータに基づいてトレーニングされたモデルを分析することで、MLADI(Multi-Label Arabic Dialect Identification)のためのデータセットの再購入の難しさは、負のサンプルの選択にあることを示す。
アラビア語レベル・オブ・ダイレクトネス(ALDi)でガイドされた自動マルチラベルアノテーションとアグリゲーションを生成することで、マルチラベルデータセットを構築する。
我々の最も優れたLAHJATBERTモデルは、最強の報告されたシステムでは0.55に比べて0.69のマクロF1を達成する。
- 参考スコア(独自算出の注目度): 41.723923327955355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being modeled as a single-label classification task for a long time, recent work has argued that Arabic Dialect Identification (ADI) should be framed as a multi-label classification task. However, ADI remains constrained by the availability of single-label datasets, with no large-scale multi-label resources available for training. By analyzing models trained on single-label ADI data, we show that the main difficulty in repurposing such datasets for Multi-Label Arabic Dialect Identification (MLADI) lies in the selection of negative samples, as many sentences treated as negative could be acceptable in multiple dialects. To address these issues, we construct a multi-label dataset by generating automatic multi-label annotations using GPT-4o and binary dialect acceptability classifiers, with aggregation guided by the Arabic Level of Dialectness (ALDi). Afterward, we train a BERT-based multi-label classifier using curriculum learning strategies aligned with dialectal complexity and label cardinality. On the MLADI leaderboard, our best-performing LAHJATBERT model achieves a macro F1 of 0.69, compared to 0.55 for the strongest previously reported system. Code and data are available at https://mohamedalaa9.github.io/lahjatbert/.
- Abstract(参考訳): 近年の研究では、アラビア方言識別(ADI)は多言語分類タスクとして扱うべきであると論じられている。
しかし、ADIはシングルラベルデータセットの可用性に制約を受けており、トレーニング用の大規模なマルチラベルリソースは提供されていない。
単一ラベルADIデータに基づいて訓練されたモデルを分析することにより,複数ラベルアラビア方言識別 (MLADI) のためのデータセットの再利用が困難であることを示す。
これらの問題に対処するため、GPT-4oとバイナリ方言アクセプタビリティ分類器を用いて自動マルチラベルアノテーションを生成し、アラビア方言レベル(ALDi)にガイドされたアグリゲーションを構築する。
その後、方言の複雑さとラベルの濃度に合わせたカリキュラム学習戦略を用いてBERTベースのマルチラベル分類器を訓練する。
MLADIのリーダーボードでは、最も優れたLAHJATBERTモデルが0.69のマクロF1を達成するのに対し、最強の報告システムでは0.55である。
コードとデータはhttps://mohamedalaa9.github.io/lahjatbert/で公開されている。
関連論文リスト
- Vision-Language Pseudo-Labels for Single-Positive Multi-Label Learning [11.489541220229798]
一般的なマルチラベル学習では、モデルは単一の入力画像に対して複数のラベルやカテゴリを予測することを学習する。
これは、タスクがイメージの多くの可能なラベルから単一のラベルを予測している、標準的なマルチクラスイメージ分類とは対照的である。
論文 参考訳(メタデータ) (2023-10-24T16:36:51Z) - Arabic Dialect Identification under Scrutiny: Limitations of
Single-label Classification [12.201535821920624]
単一ラベル分類問題として現在採用されているADIタスクのフレーミングは,その主な原因の一つであると論じる。
アラビア方言の7人の母語話者によって行われたADIの予測のための手動エラー解析により、検証済みエラーの66%が真の誤りではないことが明らかになった。
我々は,多ラベル分類タスクとしてのADIのフレーミングを提案し,新しいADIデータセットの設計を推奨する。
論文 参考訳(メタデータ) (2023-10-20T17:04:22Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Label Mask for Multi-Label Text Classification [6.742627397194543]
本稿では,言語モデルのクローズ問題に着想を得た多言語テキスト分類モデル (LM-MTC) を提案する。
そこで,各潜在的なラベルに対して異なるトークンを割り当て,ある確率でランダムにトークンをマスクし,ラベルに基づくマスケッド言語モデル(MLM)を構築する。
論文 参考訳(メタデータ) (2021-06-18T11:54:33Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。