論文の概要: Lisan: Yemenu, Irqi, Libyan, and Sudanese Arabic Dialect Copora with
Morphological Annotations
- arxiv url: http://arxiv.org/abs/2212.06468v1
- Date: Tue, 13 Dec 2022 10:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 15:04:12.183529
- Title: Lisan: Yemenu, Irqi, Libyan, and Sudanese Arabic Dialect Copora with
Morphological Annotations
- Title(参考訳): リサン:イエメン、イルキ、リビア、スーダンのアラビア語方言コポラ
- Authors: Mustafa Jarrar and Fadi A Zaraket and Tymaa Hammouda and Daanish
Masood Alavi and Martin Waahlisch
- Abstract要約: この記事では、形態学的に注釈付けされたイエメン、スーダン、イラク、リビアのアラビア語のLisan corporaについて述べる。
いくつかのソーシャルメディアプラットフォームからコーパスの内容を収集した。
注釈者は4つのコーパスの全ての単語を接頭辞、茎、接尾辞に分類し、それぞれに音声の一部、レムマ、グロスなどの異なる形態的特徴をラベル付けした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This article presents morphologically-annotated Yemeni, Sudanese, Iraqi, and
Libyan Arabic dialects Lisan corpora. Lisan features around 1.2 million tokens.
We collected the content of the corpora from several social media platforms.
The Yemeni corpus (~ 1.05M tokens) was collected automatically from Twitter.
The corpora of the other three dialects (~ 50K tokens each) came manually from
Facebook and YouTube posts and comments.
Thirty five (35) annotators who are native speakers of the target dialects
carried out the annotations. The annotators segemented all words in the four
corpora into prefixes, stems and suffixes and labeled each with different
morphological features such as part of speech, lemma, and a gloss in English.
An Arabic Dialect Annotation Toolkit ADAT was developped for the purpose of the
annation. The annotators were trained on a set of guidelines and on how to use
ADAT. We developed ADAT to assist the annotators and to ensure compatibility
with SAMA and Curras tagsets. The tool is open source, and the four corpora are
also available online.
- Abstract(参考訳): この記事では、イエメン語、スーダン語、イラク語、リビアのアラビア語方言lisan corporaについて述べる。
Lisanには120万のトークンがある。
いくつかのソーシャルメディアプラットフォームからコーパスの内容を収集した。
Yemeni corpus(約1.05Mトークン)はTwitterから自動的に収集された。
他の3つの方言(それぞれ約50Kトークン)のコーパスは、FacebookとYouTubeの投稿とコメントから手動で作成されている。
対象方言の母語話者である30名(35名)のアノテータがアノテーションを実行した。
注釈者は4つのコーパスのすべての単語を接頭辞、茎、接尾辞に分類し、それぞれに音声の一部、レムマ、グロスなどの異なる形態的特徴をラベル付けした。
アラビア方言注釈ツールキット ADAT は、このアンネーションのために開発された。
アノテーションは一連のガイドラインとADATの使用方法に基づいて訓練された。
我々は、アノテーションを補助し、SAMAやCurrasのタグセットとの互換性を確保するためにADATを開発した。
このツールはオープンソースで、4つのコーパスもオンラインで入手できる。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus [8.96693684560691]
ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。
コーパスは自動音声認識(ASR)のための課題セットを提供する
我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
論文 参考訳(メタデータ) (2024-03-27T01:19:23Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Maknuune: A Large Open Palestinian Arabic Lexicon [8.230763074145706]
マクヌーンは17Kのレムマから36K以上のエントリを持ち、3.7Kのルートを持っている。
マクヌーン(Maknuune)は、パレスチナのアラビア語方言である。
論文 参考訳(メタデータ) (2022-10-24T07:19:03Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。