論文の概要: Similarities between Arabic Dialects: Investigating Geographical
Proximity
- arxiv url: http://arxiv.org/abs/2105.04221v1
- Date: Mon, 10 May 2021 09:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:02:12.439057
- Title: Similarities between Arabic Dialects: Investigating Geographical
Proximity
- Title(参考訳): アラビア方言の類似性:地理的近縁性を探る
- Authors: Abdulkareem Alsudais, Wafa Alotaibi, Faye Alomary
- Abstract要約: 本稿では,アラブ諸国に位置する都市の地理的近接が方言的類似性に及ぼす影響について考察する。
以上の結果から,異なる国に位置する都市は,地理的近接度によって,同一国の都市よりも方言的類似性が高いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic classification of Arabic dialects is an ongoing research
challenge, which has been explored in recent work that defines dialects based
on increasingly limited geographic areas like cities and provinces. This paper
focuses on a related yet relatively unexplored topic: the effects of the
geographical proximity of cities located in Arab countries on their dialectical
similarity. Our work is twofold, reliant on: 1) comparing the textual
similarities between dialects using cosine similarity and 2) measuring the
geographical distance between locations. We study MADAR and NADI, two
established datasets with Arabic dialects from many cities and provinces. Our
results indicate that cities located in different countries may in fact have
more dialectical similarity than cities within the same country, depending on
their geographical proximity. The correlation between dialectical similarity
and city proximity suggests that cities that are closer together are more
likely to share dialectical attributes, regardless of country borders. This
nuance provides the potential for important advancements in Arabic dialect
research because it indicates that a more granular approach to dialect
classification is essential to understanding how to frame the problem of Arabic
dialects identification.
- Abstract(参考訳): アラビア方言の自動分類は、都市や州のような限られた地域に基づいて方言を定義する最近の研究で検討されている研究課題である。
本稿では,アラブ諸国に位置する都市の地理的近接性が方言的類似性に及ぼす影響について考察する。
1)コサイン類似度を用いて方言間のテキスト類似度を比較し,2)位置間の地理的距離を測定した。
我々は、多くの都市や県のアラビア方言で確立された2つのデータセットであるMADARとNADIを研究した。
以上の結果から,異なる国に位置する都市は,地理的近接度によって,同一国の都市よりも方言的類似性が高いことが示唆された。
弁証的類似性と都市近接性との相関は、国境にかかわらず、互いに近い都市は弁証的特質を共有する傾向にあることを示唆している。
このニュアンスは、アラビア方言の識別の問題を理解するために、より粒度の細かい方言分類へのアプローチが不可欠であることを示すため、アラビア方言研究において重要な進歩をもたらす可能性がある。
関連論文リスト
- Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum [25.732397636695882]
イタリア語方言における音声とテキストのパフォーマンスを測定し,地理的な特徴の相違を実証的に観察する。
この格差は(-0.5)言語的に最もパフォーマンスの高い方言とほぼ類似している。
さらに, 地学的手法を用いて, 見えない場所でのゼロショット性能を予測し, 地理的情報の導入により予測性能を大幅に向上する。
論文 参考訳(メタデータ) (2024-10-18T16:39:42Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Stability of Syntactic Dialect Classification Over Space and Time [0.0]
本稿では,12の方言を対象に,月々の間隔で3年間にまたがる英語の12の方言を対象に,1120都市にまたがる空間分布を定式化するテストセットを構築した。
各方言の分類性能の劣化率は時間とともに減少し,統語的変化を受ける地域を特定することができる。
また、方言領域における分類精度の分布により、方言の文法が内部的に不均一である程度を特定できる。
論文 参考訳(メタデータ) (2022-09-11T23:14:59Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Can Linguistic Distance help Language Classification? Assessing
Hawrami-Zaza and Kurmanji-Sorani [0.0]
ハフラミ語とザザ語は、イラン語の研究に活発な言語学者の間で、しばらくの間議論され、議論されてきた。
これらの言語/方言がクルド語に属するのか、それともイラン語の子孫であるのかという問題は、マッケンジー(1961年)によって答えられた。
方言を話す人々の大多数は、その答えに反対している。彼らの不承認は主に、方言の話者間の社会学的、文化的、歴史的関係に基づいているようだ。
論文 参考訳(メタデータ) (2021-10-27T12:52:19Z) - From Topic Networks to Distributed Cognitive Maps: Zipfian Topic
Universes in the Area of Volunteered Geographic Information [59.0235296929395]
本研究では,テキストの話題レベルに関する地理情報のエンコードとネットワーク化について検討する。
本研究は,オンラインコミュニケーションにおいて地理的な場所が位置するテーマ宇宙のZipfian組織を示す。
互いに近いかどうかに関わらず、場所はトピックの宇宙における類似の作業にまたがる隣の場所にある。
論文 参考訳(メタデータ) (2020-02-04T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。