論文の概要: Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum
- arxiv url: http://arxiv.org/abs/2410.14589v1
- Date: Fri, 18 Oct 2024 16:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:34.367406
- Title: Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum
- Title(参考訳): Dialetto, ma Quanto Dialetto : 連続体におけるダイアレクトの翻訳と評価
- Authors: Ryan Soh-Eun Shim, Barbara Plank,
- Abstract要約: イタリア語方言における音声とテキストのパフォーマンスを測定し,地理的な特徴の相違を実証的に観察する。
この格差は(-0.5)言語的に最もパフォーマンスの高い方言とほぼ類似している。
さらに, 地学的手法を用いて, 見えない場所でのゼロショット性能を予測し, 地理的情報の導入により予測性能を大幅に向上する。
- 参考スコア(独自算出の注目度): 25.732397636695882
- License:
- Abstract: There is increasing interest in looking at dialects in NLP. However, most work to date still treats dialects as discrete categories. For instance, evaluative work in variation-oriented NLP for English often works with Indian English or African-American Venacular English as homogeneous categories (Faisal et al., 2024; Ziems et al., 2023), yet even within one variety there is substantial variation. We examine within-dialect variation and show that performance critically varies within categories. We measure speech-to-text performance on Italian dialects, and empirically observe a geographical performance disparity. This disparity correlates substantially (-0.5) with linguistic similarity to the highest performing dialect variety. We cross-examine our results against dialectometry methods, and interpret the performance disparity to be due to a bias towards dialects that are more similar to the standard variety in the speech-to-text model examined. We additionally leverage geostatistical methods to predict zero-shot performance at unseen sites, and find the incorporation of geographical information to substantially improve prediction performance, indicating there to be geographical structure in the performance distribution.
- Abstract(参考訳): NLPにおける方言に対する関心が高まっている。
しかし、現在までのほとんどの研究は、方言を個別のカテゴリーとして扱う。
例えば、英語の変分指向NLPにおける評価的な研究は、インド英語やアフリカ・アメリカン・ヴェナクル・イングリッシュを同質なカテゴリーとして扱うことが多い(Faisal et al , 2024; Ziems et al , 2023)。
ダイアレクト内変動について検討し,性能がカテゴリーによって著しく異なることを示す。
イタリア語方言における音声とテキストのパフォーマンスを測定し,地理的な特徴の相違を実証的に観察する。
この格差は(-0.5)言語的に最もパフォーマンスの高い方言とほぼ類似している。
本研究は, 弁証法に比較検討し, 比較した音声・テキストモデルの標準変種に類似した方言に対する偏りによる性能差を解釈する。
さらに, 地学的手法を用いて, 未確認地点におけるゼロショット性能の予測を行い, 予測性能を著しく向上させるため, 位置情報の組み入れにより, 性能分布に地理的構造が存在することを示す。
関連論文リスト
- Disentangling Dialect from Social Bias via Multitask Learning to Improve Fairness [16.746758715820324]
本稿では,構文的および語彙的バリエーションを組み込む補助課題として,方言をモデル化するマルチタスク学習手法を提案する。
アフリカ系アメリカ人の英語方言を用いた実験では、共通学習アプローチと方言モデリングを補完することで、その公正さが向上することを示す実証的証拠を提供する。
その結果、マルチタスク学習は最先端の性能を達成し、偏りのある言語の性質をより確実に検出するのに役立つことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:39:39Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - A Taxonomy of Ambiguity Types for NLP [53.10379645698917]
NLP分析を容易にするために,英語で見られるあいまいさの分類法を提案する。
私たちの分類学は、言語あいまいさデータにおいて意味のある分割を実現するのに役立ち、データセットとモデルパフォーマンスのよりきめ細かい評価を可能にします。
論文 参考訳(メタデータ) (2024-03-21T01:47:22Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Stability of Syntactic Dialect Classification Over Space and Time [0.0]
本稿では,12の方言を対象に,月々の間隔で3年間にまたがる英語の12の方言を対象に,1120都市にまたがる空間分布を定式化するテストセットを構築した。
各方言の分類性能の劣化率は時間とともに減少し,統語的変化を受ける地域を特定することができる。
また、方言領域における分類精度の分布により、方言の文法が内部的に不均一である程度を特定できる。
論文 参考訳(メタデータ) (2022-09-11T23:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。