論文の概要: Unsupervised Classification of English Words Based on Phonological Information: Discovery of Germanic and Latinate Clusters
- arxiv url: http://arxiv.org/abs/2504.11770v1
- Date: Wed, 16 Apr 2025 05:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:06.311971
- Title: Unsupervised Classification of English Words Based on Phonological Information: Discovery of Germanic and Latinate Clusters
- Title(参考訳): 音韻情報に基づく英語単語の教師なし分類:ゲルマン語クラスタとラテン語クラスタの発見
- Authors: Takashi Morita, Timothy J. O'Donnell,
- Abstract要約: 言語横断的に、母語と借用語は異なる音韻規則に従う。
英語の語彙におけるゲルマン語とラテン語の区別は、個々の単語の音韻情報から学べる。
- 参考スコア(独自算出の注目度): 9.220284665192663
- License:
- Abstract: Cross-linguistically, native words and loanwords follow different phonological rules. In English, for example, words of Germanic and Latinate origin exhibit different stress patterns, and a certain syntactic structure is exclusive to Germanic verbs. When seeing them as a cognitive model, however, such etymology-based generalizations face challenges in terms of learnability, since the historical origins of words are presumably inaccessible information for general language learners. In this study, we present computational evidence indicating that the Germanic-Latinate distinction in the English lexicon is learnable from the phonotactic information of individual words. Specifically, we performed an unsupervised clustering on corpus-extracted words, and the resulting word clusters largely aligned with the etymological distinction. The model-discovered clusters also recovered various linguistic generalizations documented in the previous literature regarding the corresponding etymological classes. Moreover, our findings also uncovered previously unrecognized features of the quasi-etymological clusters, offering novel hypotheses for future experimental studies.
- Abstract(参考訳): 言語横断的に、母語と借用語は異なる音韻規則に従う。
例えば、英語ではゲルマン語とラテン語起源の単語は異なるストレスパターンを示し、ある構文構造はゲルマン語の動詞に排他的である。
しかし、これらを認知モデルと見なす場合、単語の歴史的起源は一般言語学習者にとってアクセス不能な情報であると考えられるため、このような語源に基づく一般化は学習可能性の観点から困難に直面している。
本研究では,英語辞書におけるゲルマン語とラテン語の区別が,個々の単語の音韻情報から学習可能であることを示す計算的証拠を示す。
具体的には、コーパス抽出された単語に対して教師なしクラスタリングを行い、結果として得られた単語クラスタは、語源的区別と大きく一致した。
モデルによって発見されたクラスターはまた、対応する語源学クラスに関する以前の文献で記録された様々な言語一般化を回収した。
さらに, 準エトロジークラスターのこれまで認識されていなかった特徴も発見され, 今後の実験的研究に新たな仮説が提示された。
関連論文リスト
- Patterns of Closeness and Abstractness in Colexifications: The Case of
Indigenous Languages in the Americas [3.7055269158186874]
コレキシフィケーション(英: Colexification)とは、複数の概念(意味)が同じ語彙形式で表される言語現象のことである。
本稿では, 具体性・難易度に近い概念は, 共存によく似ていると仮定し, アメリカ大陸の先住民言語にまたがる仮説を検証した。
論文 参考訳(メタデータ) (2023-12-18T10:06:50Z) - Analogy in Contact: Modeling Maltese Plural Inflection [4.83828446399992]
マルタ特異名詞の音韻論と語源が形態過程を予測する程度を定量化する。
結果は、音韻学的圧力が予測力を持つマルタ・レキシコンの組織を形成することを示している。
論文 参考訳(メタデータ) (2023-05-20T20:16:57Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Rediscovering the Slavic Continuum in Representations Emerging from
Neural Models of Spoken Language Identification [16.369477141866405]
音声信号におけるスラヴ語識別のためのニューラルモデルを提案する。
本稿では,言語関連性の客観的尺度を反映しているかどうかを調査するために,その創発的表現を分析した。
論文 参考訳(メタデータ) (2020-10-22T18:18:19Z) - The Typology of Polysemy: A Multilingual Distributional Framework [6.753781783859273]
本稿では,概念に対する語彙意味論の言語間類似性である意味親和性(semantic affinity)を定量化する新しい枠組みを提案する。
以上の結果から,言語系統学以外の意味領域と言語外要因との複雑な相互作用が明らかとなった。
論文 参考訳(メタデータ) (2020-06-02T22:31:40Z) - In search of isoglosses: continuous and discrete language embeddings in
Slavic historical phonology [0.0]
私たちは3種類の言語埋め込み(dense, sigmoid, ストレートスルー)を採用しています。
Sigmoid モデルの言語埋め込みは,従来のスラヴ語のサブグループ化と最強の一致を示している。
論文 参考訳(メタデータ) (2020-05-27T18:10:46Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Where New Words Are Born: Distributional Semantic Analysis of Neologisms
and Their Semantic Neighborhoods [51.34667808471513]
分散意味論のパラダイムで定式化されたセマンティック隣人のセマンティック・スパシティと周波数成長率という2つの要因の重要性について検討する。
いずれの因子も単語の出現を予測できるが,後者の仮説はより支持される。
論文 参考訳(メタデータ) (2020-01-21T19:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。