論文の概要: Arabic Dialect Identification under Scrutiny: Limitations of
Single-label Classification
- arxiv url: http://arxiv.org/abs/2310.13661v1
- Date: Fri, 20 Oct 2023 17:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 21:44:00.899575
- Title: Arabic Dialect Identification under Scrutiny: Limitations of
Single-label Classification
- Title(参考訳): 精査によるアラビア方言の識別:単一ラベル分類の限界
- Authors: Amr Keleg and Walid Magdy
- Abstract要約: 単一ラベル分類問題として現在採用されているADIタスクのフレーミングは,その主な原因の一つであると論じる。
アラビア方言の7人の母語話者によって行われたADIの予測のための手動エラー解析により、検証済みエラーの66%が真の誤りではないことが明らかになった。
我々は,多ラベル分類タスクとしてのADIのフレーミングを提案し,新しいADIデータセットの設計を推奨する。
- 参考スコア(独自算出の注目度): 12.201535821920624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Arabic Dialect Identification (ADI) of text has gained great
popularity since it was introduced in the early 2010s. Multiple datasets were
developed, and yearly shared tasks have been running since 2018. However, ADI
systems are reported to fail in distinguishing between the micro-dialects of
Arabic. We argue that the currently adopted framing of the ADI task as a
single-label classification problem is one of the main reasons for that. We
highlight the limitation of the incompleteness of the Dialect labels and
demonstrate how it impacts the evaluation of ADI systems. A manual error
analysis for the predictions of an ADI, performed by 7 native speakers of
different Arabic dialects, revealed that $\approx$ 66% of the validated errors
are not true errors. Consequently, we propose framing ADI as a multi-label
classification task and give recommendations for designing new ADI datasets.
- Abstract(参考訳): 2010年代初頭に導入されて以来、テキストの自動アラビア語方言識別(adi)の人気が高まっている。
複数のデータセットが開発され、2018年から毎年共有タスクが実行されている。
しかし、ADIシステムはアラビア語のマイクロ方言の区別に失敗したと報告されている。
単一ラベル分類問題として現在採用されているADIタスクのフレーミングは,その主な原因の一つであると論じる。
方言ラベルの不完全性の限界を強調し, adiシステムの評価にどのように影響するかを示す。
アラビア方言の7人の母語話者によって行われたADIの予測のための手動エラー解析により、検証済みエラーの66%が真の誤りではないことが明らかになった。
そこで我々は,ADIを多ラベル分類タスクとしてフレーミングすることを提案し,新しいADIデータセットの設計を推奨する。
関連論文リスト
- Active Generalized Category Discovery [60.69060965936214]
GCD(Generalized Category Discovery)は、新しいクラスと古いクラスの未ラベルのサンプルをクラスタ化するための取り組みである。
我々は,能動的学習の精神を取り入れて,能動的一般化カテゴリー発見(AGCD)という新たな設定を提案する。
提案手法は, 汎用および微粒なデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-07T07:12:24Z) - VariErr NLI: Separating Annotation Error from Human Label Variation [23.392480595432676]
系統的手法と新しいデータセットであるVariErr(変分対エラー)を導入する。
VariErr は 500 個の再注釈された MNLI 項目について 1,933 個の説明に対して 7,732 個の妥当性判断を下している。
現状のAID法はGPTと人間を著しく過小評価している。
論文 参考訳(メタデータ) (2024-03-04T10:57:14Z) - ROG$_{PL}$: Robust Open-Set Graph Learning via Region-Based Prototype
Learning [52.60434474638983]
本稿では,複雑な雑音グラフデータに対する堅牢なオープンセット学習を実現するために,ROG$_PL$という統一フレームワークを提案する。
このフレームワークは2つのモジュール、すなわちラベルの伝搬による認知と、リージョンによるオープンセットのプロトタイプ学習で構成されている。
我々の知る限り、ROG$_PL$は複雑なノイズを持つグラフデータに対して、最初の堅牢なオープンセットノード分類法である。
論文 参考訳(メタデータ) (2024-02-28T17:25:06Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - A Parameter-Efficient Learning Approach to Arabic Dialect Identification
with Pre-Trained General-Purpose Speech Model [9.999900422312098]
我々は、アラビア方言識別(ADI)のためのGSMを条件にトークンレベルのラベルマッピングを開発する。
我々は,バニラ微調整により,ADI-17データセット上で最先端の精度を実現する。
本研究は、小さなデータセットを用いてアラビア方言を識別する方法を示し、オープンソースコードと事前訓練されたモデルで制限する。
論文 参考訳(メタデータ) (2023-05-18T18:15:53Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - On Non-Random Missing Labels in Semi-Supervised Learning [114.62655062520425]
Semi-Supervised Learning (SSL)は基本的にラベルの問題である。
SSL に "class" を明示的に組み込んでいます。
提案手法は,既存のベースラインを著しく上回るだけでなく,他のラベルバイアス除去SSL法を上回ります。
論文 参考訳(メタデータ) (2022-06-29T22:01:29Z) - Automatic Error Type Annotation for Arabic [20.51341894424478]
現代標準アラビア語のための自動エラー型アノテーションシステムであるARETAを提案する。
我々は誤り分類をアラビア学習者コーパス(ALC)のError Tagsetにいくつかの修正を加えている。
ARETAは、ALCのマニュアルアノテートされたブラインドテスト部分において85.8%(マイクロ平均F1スコア)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-09-16T15:50:11Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。
方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。
優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文 参考訳(メタデータ) (2020-07-10T21:11:46Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。