論文の概要: Mind the Gap: Assessing Wiktionary's Crowd-Sourced Linguistic Knowledge on Morphological Gaps in Two Related Languages
- arxiv url: http://arxiv.org/abs/2506.17603v1
- Date: Sat, 21 Jun 2025 05:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.49714
- Title: Mind the Gap: Assessing Wiktionary's Crowd-Sourced Linguistic Knowledge on Morphological Gaps in Two Related Languages
- Title(参考訳): マインド・ザ・ギャップ(Mind the Gap) : 2つの関連言語における形態的ギャップに関するウィクティナリーのクラウドソース言語知識の評価
- Authors: Jonathan Sakunkoo, Annabella Sakunkoo,
- Abstract要約: 本研究は、ラテン語とイタリア語のコーパスに注釈を付ける新しい神経形態解析器をカスタマイズする。
Wiktionaryからコンパイルされた欠陥動詞のクラウドソースリストを計算的に検証する。
以上の結果から,Wiktionaryはイタリアの形態的ギャップを高い信頼性で評価する一方で,ラテン・レマタの7%は非欠陥性を示すコーパスが強いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Morphological defectivity is an intriguing and understudied phenomenon in linguistics. Addressing defectivity, where expected inflectional forms are absent, is essential for improving the accuracy of NLP tools in morphologically rich languages. However, traditional linguistic resources often lack coverage of morphological gaps as such knowledge requires significant human expertise and effort to document and verify. For scarce linguistic phenomena in under-explored languages, Wikipedia and Wiktionary often serve as among the few accessible resources. Despite their extensive reach, their reliability has been a subject of controversy. This study customizes a novel neural morphological analyzer to annotate Latin and Italian corpora. Using the massive annotated data, crowd-sourced lists of defective verbs compiled from Wiktionary are validated computationally. Our results indicate that while Wiktionary provides a highly reliable account of Italian morphological gaps, 7% of Latin lemmata listed as defective show strong corpus evidence of being non-defective. This discrepancy highlights potential limitations of crowd-sourced wikis as definitive sources of linguistic knowledge, particularly for less-studied phenomena and languages, despite their value as resources for rare linguistic features. By providing scalable tools and methods for quality assurance of crowd-sourced data, this work advances computational morphology and expands linguistic knowledge of defectivity in non-English, morphologically rich languages.
- Abstract(参考訳): 形態的欠陥性(英: Morphological defectivity)は、言語学における興味深い現象である。
形態的に豊かな言語におけるNLPツールの精度を向上させるためには,予測される屈折形式が欠如している欠陥に対処することが不可欠である。
しかしながら、伝統的な言語資源は、しばしば形態的ギャップのカバレッジを欠いているため、そのような知識は、文書化と検証のために重要な人間の専門知識と努力を必要とする。
未調査言語では言語現象が乏しいため、ウィキペディアやウィキオナリーが数少ないアクセス可能な資源として機能することが多い。
広範囲に及んだにもかかわらず、その信頼性は論争の対象となっている。
本研究は、ラテン語とイタリア語のコーパスに注釈を付ける新しい神経形態解析器をカスタマイズする。
大量の注釈付きデータを用いて、Wiktionaryからコンパイルされた欠陥動詞のクラウドソースリストを計算的に検証する。
以上の結果から,Wiktionaryはイタリアの形態的ギャップを高い信頼性で評価する一方で,ラテン・レマタの7%は非欠陥性を示すコーパスが強いことが示唆された。
この不一致は、希少な言語の特徴の資源としての価値にもかかわらず、特に研究の少ない現象や言語に対して、言語知識の決定的な源として、クラウドソースウィキの潜在的な制限を強調している。
クラウドソースデータの品質保証のためのスケーラブルなツールと方法を提供することにより、この研究は計算形態学を進歩させ、非英語、形態学的にリッチな言語における欠陥性に関する言語知識を拡張する。
関連論文リスト
- Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。