論文の概要: Bridging Natural Language Processing and Psycholinguistics:
computationally grounded semantic similarity datasets for Basque and Spanish
- arxiv url: http://arxiv.org/abs/2304.09616v2
- Date: Thu, 20 Apr 2023 08:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:43:04.982906
- Title: Bridging Natural Language Processing and Psycholinguistics:
computationally grounded semantic similarity datasets for Basque and Spanish
- Title(参考訳): 自然言語処理のブリッジングと心理言語学:バスク語とスペイン語における意味的類似性データセット
- Authors: J. Goikoetxea, M. Arantzeta, I. San Martin
- Abstract要約: 本稿では,2つの有名な自然言語処理資源,テキストコーパスと知識ベースに基づく単語類似性データセットを提案する。
現在のデータセットにはバスク語とスペイン語の名詞対の情報が含まれているが、さらに多くの言語に拡張することを意図している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a computationally-grounded word similarity dataset based on two
well-known Natural Language Processing resources; text corpora and knowledge
bases. This dataset aims to fulfil a gap in psycholinguistic research by
providing a variety of quantifications of semantic similarity in an extensive
set of noun pairs controlled by variables that play a significant role in
lexical processing. The dataset creation has consisted in three steps, 1)
computing four key psycholinguistic features for each noun; concreteness,
frequency, semantic and phonological neighbourhood density; 2) pairing nouns
across these four variables; 3) for each noun pair, assigning three types of
word similarity measurements, computed out of text, Wordnet and hybrid
embeddings. The present dataset includes noun pairs' information in Basque and
European Spanish, but further work intends to extend it to more languages.
- Abstract(参考訳): 本稿では,テキストコーパスと知識ベースという2つの有名な自然言語処理資源に基づく,計算的な単語類似度データセットを提案する。
このデータセットは、語彙処理において重要な役割を果たす変数によって制御される一連の名詞対において、意味的類似性の様々な定量化を提供することによって、精神言語学研究のギャップを埋めることを目的としている。
データセットの作成には3つのステップがあります。
1) 各名詞の4つの重要な精神言語的特徴,具体性,頻度,意味,音韻的近傍密度の計算
2) これら4つの変数にまたがるペア名詞
3)各名詞対に対して3種類の単語類似度測定を割り当て,テキスト,Wordnet,ハイブリッド埋め込みを計算した。
現在のデータセットには、バスク語とヨーロッパスペイン語の名詞ペアの情報が含まれているが、さらに多くの言語に拡張される予定である。
関連論文リスト
- Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - SpaDeLeF: A Dataset for Hierarchical Classification of Lexical Functions
for Collocations in Spanish [6.9454683800956705]
スペイン語の動詞・名詞のコロケーションと文の出現頻度が最も高いデータセットを提示する。
各コロケーションは、階層分類タスクのクラスとして定義される37の語彙関数の1つに割り当てられる。
木構造にクラスを結合し,構造レベル毎に分類対象を導入する。
論文 参考訳(メタデータ) (2023-11-07T18:32:34Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation
dataset for Uzbek language [0.0]
セマンティックモデル評価データセットSimRelUzを提案する。
データセットは、その形態的特徴に基づいて慎重に選択された1000組以上の単語から構成される。
また,まれな単語や語彙外単語を扱うという問題にも注意を払っている。
論文 参考訳(メタデータ) (2022-05-12T13:11:28Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - BabelEnconding at SemEval-2020 Task 3: Contextual Similarity as a
Combination of Multilingualism and Language Models [0.5276232626689568]
本稿では,SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity (BabelEnconding) to SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity。
論文 参考訳(メタデータ) (2020-08-19T13:46:37Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。