論文の概要: An Exploratory Analysis on the Explanatory Potential of Embedding-Based Measures of Semantic Transparency for Malay Word Recognition
- arxiv url: http://arxiv.org/abs/2505.05973v1
- Date: Fri, 09 May 2025 11:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.250254
- Title: An Exploratory Analysis on the Explanatory Potential of Embedding-Based Measures of Semantic Transparency for Malay Word Recognition
- Title(参考訳): マレー語認識における意味的透明性の埋め込みに基づく説明可能性に関する探索的検討
- Authors: M. Maziyah Mohamed, R. H. Baayen,
- Abstract要約: セマンティック透明性の埋め込みに基づく尺度について検討する。
本研究は,これらの指標が語彙決定遅延の有意な予測因子であるかどうかを考察する。
いずれの尺度も,単語頻度,単語長,形態的家族サイズを考慮し,決定遅延を予測した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studies of morphological processing have shown that semantic transparency is crucial for word recognition. Its computational operationalization is still under discussion. Our primary objectives are to explore embedding-based measures of semantic transparency, and assess their impact on reading. First, we explored the geometry of complex words in semantic space. To do so, we conducted a t-distributed Stochastic Neighbor Embedding clustering analysis on 4,226 Malay prefixed words. Several clusters were observed for complex words varied by their prefix class. Then, we derived five simple measures, and investigated whether they were significant predictors of lexical decision latencies. Two sets of Linear Discriminant Analyses were run in which the prefix of a word is predicted from either word embeddings or shift vectors (i.e., a vector subtraction of the base word from the derived word). The accuracy with which the model predicts the prefix of a word indicates the degree of transparency of the prefix. Three further measures were obtained by comparing embeddings between each word and all other words containing the same prefix (i.e., centroid), between each word and the shift from their base word, and between each word and the predicted word of the Functional Representations of Affixes in Compositional Semantic Space model. In a series of Generalized Additive Mixed Models, all measures predicted decision latencies after accounting for word frequency, word length, and morphological family size. The model that included the correlation between each word and their centroid as a predictor provided the best fit to the data.
- Abstract(参考訳): 形態素処理の研究により、単語認識には意味的透明性が不可欠であることが示されている。
計算処理は現在も議論中である。
我々の主な目的は、セマンティック透明性の埋め込みに基づく尺度を探究し、それらが読書に与える影響を評価することである。
まず,意味空間における複雑な単語の幾何学について検討した。
そこで我々は,4,226のマレー語を接頭辞として,t-distributed Stochastic Neighbor Embedding分析を行った。
接頭辞によって異なる複雑な単語に対していくつかのクラスターが観察された。
次に,5つの簡単な測度を導出し,それらが語彙決定遅延の有意な予測因子であるかどうかを検討した。
単語の接頭辞が単語埋め込みまたはシフトベクトル(つまり、派生語からのベースワードのベクトル減算)から予測される2組の線形判別分析が実行された。
モデルが単語の接頭辞を予測する精度は、接頭辞の透明度を示す。
さらに,各単語と同じ接頭辞を含む他の単語(例えばセンタロイド)との埋め込み,各単語と基本単語からのシフト,および各単語と合成意味空間モデルにおける接尾辞の関数表現の予測語との埋め込みを比較した。
一般化付加混合モデルでは, 単語頻度, 単語長, 形態的家族サイズを考慮し, 決定遅延を予測した。
各単語とセントロイドの相関関係を予測器として含むモデルは、データに最も適したモデルである。
関連論文リスト
- Word-specific tonal realizations in Mandarin [0.9249657468385781]
本研究は,音素認識が単語の意味によって部分的に決定されることを示唆している。
まず,台湾・マンダリン自発会話のコーパスに基づいて,従来確立されていたすべての単語形式関連予測器よりも,単語型が音素認識の強力な予測器であることが示される。
次に、文脈固有単語埋め込みを用いた計算モデルを用いて、トークン固有ピッチ輪郭が保持データ上で50%の精度で単語タイプを予測することを示す。
論文 参考訳(メタデータ) (2024-05-11T13:00:35Z) - Identifying and interpreting non-aligned human conceptual
representations using language modeling [0.0]
先天性失明は,a-モダル語と知覚関連言語ドメインの両方において概念的再編成を引き起こすことを示す。
視覚障害者は、より強く社会的・認知的な意味と、行動に関連する動詞を関連づける。
一部の動詞では、盲目と盲目の表現は非常に似ている。
論文 参考訳(メタデータ) (2024-03-10T13:02:27Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in
BERT-based Embedding Spaces [63.17308641484404]
本稿では,異なる単語の意味の表現として,各単語の異なる事象のクラスタを特定することを提案する。
得られたクラスタの分解は、自然に4つのターゲット言語において、各ターゲットワードごとの意味的シフトのレベルを定量化することができる。
当社のアプローチは,提供されたすべてのSemEvalベースラインを抜いて,個別(言語毎)と全体の両方で良好に動作します。
論文 参考訳(メタデータ) (2020-10-02T08:38:40Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。