論文の概要: Phonotactic Complexity across Dialects
- arxiv url: http://arxiv.org/abs/2402.12998v1
- Date: Tue, 20 Feb 2024 13:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:06:00.197510
- Title: Phonotactic Complexity across Dialects
- Title(参考訳): 方言にまたがる音韻複雑度
- Authors: Ryan Soh-Eun Shim, Kalvin Chang, David R. Mortensen
- Abstract要約: 言語型学における知恵の受け取りは、ある言語の構造がある次元においてより複雑になると、別の次元では単純化されるというものである。
オランダ語方言(366点以上)とミン方言(60点以上)の厳密に制御されたサンプルを用いて,この主張をマイクロレベルで研究する。
LSTMに基づく音声レベル言語モデルから,単語長と音韻的複雑性の計算量とのトレードオフの実証的証拠を求める。
- 参考スコア(独自算出の注目度): 9.169501109658675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Received wisdom in linguistic typology holds that if the structure of a
language becomes more complex in one dimension, it will simplify in another,
building on the assumption that all languages are equally complex (Joseph and
Newmeyer, 2012). We study this claim on a micro-level, using a
tightly-controlled sample of Dutch dialects (across 366 collection sites) and
Min dialects (across 60 sites), which enables a more fair comparison across
varieties. Even at the dialect level, we find empirical evidence for a tradeoff
between word length and a computational measure of phonotactic complexity from
a LSTM-based phone-level language model-a result previously documented only at
the language level. A generalized additive model (GAM) shows that dialects with
low phonotactic complexity concentrate around the capital regions, which we
hypothesize to correspond to prior hypotheses that language varieties of
greater or more diverse populations show reduced phonotactic complexity. We
also experiment with incorporating the auxiliary task of predicting syllable
constituency, but do not find an increase in the negative correlation observed.
- Abstract(参考訳): 言語的タイポロジーにおける認識された知恵は、ある次元において言語の構造がより複雑になった場合、他の次元では単純化され、全ての言語が等しく複雑であると仮定する(joseph and newmeyer, 2012)。
この主張を,オランダ方言(366点以上)とミン方言(60点以上)の厳密に制御されたサンプルを用いて,マイクロレベルで研究し,品種間でより公正な比較を可能にする。
言語レベルでも,LSTMに基づく音声レベルの言語モデルから,単語長と音韻的複雑性の計算値とのトレードオフの実証的証拠が得られた。
一般化加法モデル (GAM) は, 音韻の複雑さが低い方言が首都周辺に集中していることを示し, より多種多様な言語品種が音韻の複雑さを減少させるという先行仮説に対応すると仮定した。
また,音節構成の予測に補助的タスクを組み込む実験を行ったが,観測された負の相関の増大は見つからなかった。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models [57.225289079198454]
マルチ並列コーパスを用いてmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。
本研究は,mPLM-Simが,レキシコ,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。
さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。
論文 参考訳(メタデータ) (2023-05-23T04:44:26Z) - Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。
マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:48:23Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。