論文の概要: Polish phonology and morphology through the lens of distributional semantics
- arxiv url: http://arxiv.org/abs/2604.00174v1
- Date: Tue, 31 Mar 2026 19:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.693521
- Title: Polish phonology and morphology through the lens of distributional semantics
- Title(参考訳): 分布意味論のレンズによるポーランド音韻論と形態学
- Authors: Paula Orzechowska, R. Harald Baayen,
- Abstract要約: 本研究では,ポーランド語の音韻的構造と形態的構造と意味との関係について,分布意味論を用いて検討する。
意味ベクトルが音素文字列などの語彙下言語単位の情報を取得することを示す。
埋め込みを用いた識別的語彙モデルによる計算モデリングは、理解と生産の精度の高い予測を可能にすると論じる。
- 参考スコア(独自算出の注目度): 0.05729426778193397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the relationship between the phonological and morphological structure of Polish words and their meanings using Distributional Semantics. In the present analysis, we ask whether there is a relationship between the form properties of words containing consonant clusters and their meanings. Is the phonological and morphonological structure of complex words mirrored in semantic space? We address these questions for Polish, a language characterized by non-trivial morphology and an impressive inventory of morphologically-motivated consonant clusters. We use statistical and computational techniques, such as t-SNE, Linear Discriminant Analysis and Linear Discriminative Learning, and demonstrate that -- apart from encoding rich morphosyntactic information (e.g. tense, number, case) -- semantic vectors capture information on sub-lexical linguistic units such as phoneme strings. First, phonotactic complexity, morphotactic transparency, and a wide range of morphosyntactic categories available in Polish (case, gender, aspect, tense, number) can be predicted from embeddings without requiring any information about the forms of words. Second, we argue that computational modelling with the discriminative lexicon model using embeddings can provide highly accurate predictions for comprehension and production, exactly because of the existence of extensive information in semantic space that is to a considerable extent isomorphic with structure in the form space.
- Abstract(参考訳): 本研究では,ポーランド語の音韻的構造と形態的構造と意味との関係について,分布意味論を用いて検討した。
本分析では,子音クラスタを含む単語の形式特性と意味の関係を問う。
複雑な単語の音韻構造と音韻構造は意味空間に反映されているか?
ポーランド語は、非自明な形態素を特徴とする言語であり、形態素的に動機付けられた子音クラスタの顕著な在庫である。
我々は t-SNE, 線形識別分析, 線形識別学習などの統計・計算手法を用いて, 豊かな形態素情報(例えば時制, 数, ケース)を符号化することとは別に, 意味ベクトルが音素文字列などの語彙下言語単位の情報を取得することを示した。
第一に、音韻論的複雑性、形態論的透明性、およびポーランド語で利用可能な幅広い形態論的カテゴリー(ケース、性別、アスペクト、緊張、数)は、単語の形態に関する情報を必要とせずに埋め込みから予測できる。
第二に、埋め込みを用いた識別的語彙モデルによる計算モデリングは、形式空間の構造にほぼ同型である意味空間に広範な情報が存在するため、理解と生産の精度の高い予測を提供することができると論じる。
関連論文リスト
- UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Analogy in Contact: Modeling Maltese Plural Inflection [4.83828446399992]
マルタ特異名詞の音韻論と語源が形態過程を予測する程度を定量化する。
結果は、音韻学的圧力が予測力を持つマルタ・レキシコンの組織を形成することを示している。
論文 参考訳(メタデータ) (2023-05-20T20:16:57Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - The Typology of Polysemy: A Multilingual Distributional Framework [6.753781783859273]
本稿では,概念に対する語彙意味論の言語間類似性である意味親和性(semantic affinity)を定量化する新しい枠組みを提案する。
以上の結果から,言語系統学以外の意味領域と言語外要因との複雑な相互作用が明らかとなった。
論文 参考訳(メタデータ) (2020-06-02T22:31:40Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。