Fugu-MT 論文翻訳(概要): ALDi: Quantifying the Arabic Level of Dialectness of Text

論文の概要: ALDi: Quantifying the Arabic Level of Dialectness of Text

arxiv url: http://arxiv.org/abs/2310.13747v1
Date: Fri, 20 Oct 2023 18:07:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 05:39:32.982106
Title: ALDi: Quantifying the Arabic Level of Dialectness of Text
Title（参考訳）: ALDi: テキストのアラビア方言のレベルを定量化
Authors: Amr Keleg, Sharon Goldwater, Walid Magdy
Abstract要約: 我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。 AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
参考スコア（独自算出の注目度）: 17.37857915257019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transcribed speech and user-generated text in Arabic typically contain a mixture of Modern Standard Arabic (MSA), the standardized language taught in schools, and Dialectal Arabic (DA), used in daily communications. To handle this variation, previous work in Arabic NLP has focused on Dialect Identification (DI) on the sentence or the token level. However, DI treats the task as binary, whereas we argue that Arabic speakers perceive a spectrum of dialectness, which we operationalize at the sentence level as the Arabic Level of Dialectness (ALDi), a continuous linguistic variable. We introduce the AOC-ALDi dataset (derived from the AOC dataset), containing 127,835 sentences (17% from news articles and 83% from user comments on those articles) which are manually labeled with their level of dialectness. We provide a detailed analysis of AOC-ALDi and show that a model trained on it can effectively identify levels of dialectness on a range of other corpora (including dialects and genres not included in AOC-ALDi), providing a more nuanced picture than traditional DI systems. Through case studies, we illustrate how ALDi can reveal Arabic speakers' stylistic choices in different situations, a useful property for sociolinguistic analyses.
Abstract（参考訳）: アラビア語で転写された音声とユーザー生成テキストは、典型的には現代の標準アラビア語(msa)と、学校で教えられた標準アラビア語(da)の混合を含んでいる。この変化に対処するため、アラビア語のNLPにおける以前の研究は、文やトークンのレベルでの方言識別(DI)に焦点を当てていた。しかし、DIはタスクをバイナリとして扱うのに対し、アラビア語話者は方言のスペクトルを知覚し、文レベルでは連続的な言語変数であるアラビア方言レベル(ALDi)として操作する。 aoc-aldiデータセット(aocデータセットから派生したもので、ニュース記事から127,835文(17%)、それらの記事に対するユーザーコメントから83%)を手作業でラベル付けしたデータセットである。 aoc-aldiの詳細な分析を行い、訓練されたモデルが他のコーパス(aoc-aldiに含まれない方言やジャンルを含む)の方言のレベルを効果的に識別できることを示し、従来のdiシステムよりもニュアンス的なイメージを提供する。ケーススタディを通じて,aldiがアラビア語話者のスタイル選択を異なる状況で明らかにし,社会言語学的分析に有用であることを示す。

関連論文リスト

ARCADE: A City-Scale Corpus for Fine-Grained Arabic Dialect Tagging [4.23980289430769]
我々は、都市レベルの方言の粒度を明示的に設計した最初のアラビア語音声データセットARCADEを提示する。コーパスは、アラブ世界のストリーミングサービスから収集されたアラビアのラジオ音声で構成されている。その結果得られたコーパスは、19か国58都市にまたがる6,907のアノテーションと3,790のユニークなオーディオセグメントで構成されている。
論文参考訳（メタデータ） (2026-01-05T15:32:17Z)
DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。 MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文参考訳（メタデータ） (2025-10-31T15:17:06Z)
The Arabic Generality Score: Another Dimension of Modeling Arabic Dialectness [10.837144343838945]
アラビア語の方言は様々な連続体を形成するが、NLPモデルはそれらを個別のカテゴリーとして扱うことが多い。アラビア・ジェネリティスコア(AGS)は、単語が方言でどれだけ広く使われているかを定量化するものである。
論文参考訳（メタデータ） (2025-08-24T13:06:00Z)
A Novel Dialect-Aware Framework for the Classification of Arabic Dialects and Emotions [0.0]
アラビア語における感情検出の現在の研究は、異なる方言で感情がどのように表現されるかについての認識を欠いている。この研究は、与えられたテキストからアラビア語の方言や感情を識別し、予測できる新しいフレームワークを構築する。アラビア方言の分類では88.9%の精度を達成し、最先端の結果を6.45ポイント上回った。
論文参考訳（メタデータ） (2025-02-13T10:05:44Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文参考訳（メタデータ） (2024-09-17T17:59:25Z)
Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-07-03T11:30:03Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
Estimating the Level of Dialectness Predicts Interannotator Agreement in Multi-dialect Arabic Datasets [15.46274799809334]
アラビアレベル・オブ・ダイアレクトネス(ALDi)スコアとアノテータのデータセットに関する合意との関係を解析した。各サンプルの方言の母語話者に対して高いALDiスコアのルーティングサンプルを優先順位付けすることを推奨する。
論文参考訳（メタデータ） (2024-05-18T12:58:02Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文参考訳（メタデータ） (2024-02-19T09:15:28Z)
Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。自然言語処理(NLP)の状況に注目する。ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文参考訳（メタデータ） (2022-10-21T21:59:44Z)
Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文参考訳（メタデータ） (2022-04-03T01:34:48Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
Towards One Model to Rule All: Multilingual Strategy for Dialectal Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文参考訳（メタデータ） (2021-05-31T08:20:38Z)
Automatic Arabic Dialect Identification Systems for Written Texts: A Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文参考訳（メタデータ） (2020-09-26T15:33:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。