論文の概要: Bridging Natural Language Processing and Psycholinguistics:
computationally grounded semantic similarity and relatedness datasets for
Basque and Spanish
- arxiv url: http://arxiv.org/abs/2304.09616v1
- Date: Wed, 19 Apr 2023 12:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:31:21.015536
- Title: Bridging Natural Language Processing and Psycholinguistics:
computationally grounded semantic similarity and relatedness datasets for
Basque and Spanish
- Title(参考訳): 自然言語処理と心理言語学:バスク語とスペイン語における意味的類似性と関連性データセット
- Authors: J. Goikoetxea, M. Arantzeta, I. San Martin
- Abstract要約: 本稿では,2つの有名な自然言語処理資源,テキストコーパスと知識ベースに基づく単語類似性データセットを提案する。
現在のデータセットにはバスク語とスペイン語の名詞対の情報が含まれているが、さらに多くの言語に拡張することを意図している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a computationally-grounded word similarity dataset based on two
well-known Natural Language Processing resources; text corpora and knowledge
bases. This dataset aims to fulfil a gap in psycholinguistic research by
providing a variety of quantifications of semantic similarity in an extensive
set of noun pairs controlled by variables that play a significant role in
lexical processing. The dataset creation has consisted in three steps, 1)
computing four key psycholinguistic features for each noun; concreteness,
frequency, semantic and phonological neighbourhood density; 2) pairing nouns
across these four variables; 3) for each noun pair, assigning three types of
word similarity measurements, computed out of text, Wordnet and hybrid
embeddings. The present dataset includes noun pairs' information in Basque and
European Spanish, but further work intends to extend it to more languages.
- Abstract(参考訳): 本稿では,テキストコーパスと知識ベースという2つの有名な自然言語処理資源に基づく,計算的な単語類似度データセットを提案する。
このデータセットは、語彙処理において重要な役割を果たす変数によって制御される一連の名詞対において、意味的類似性の様々な定量化を提供することによって、精神言語学研究のギャップを埋めることを目的としている。
データセットの作成には3つのステップがあります。
1) 各名詞の4つの重要な精神言語的特徴,具体性,頻度,意味,音韻的近傍密度の計算
2) これら4つの変数にまたがるペア名詞
3)各名詞対に対して3種類の単語類似度測定を割り当て,テキスト,Wordnet,ハイブリッド埋め込みを計算した。
現在のデータセットには、バスク語とヨーロッパスペイン語の名詞ペアの情報が含まれているが、さらに多くの言語に拡張される予定である。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文 参考訳(メタデータ) (2024-06-24T07:27:01Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - SpaDeLeF: A Dataset for Hierarchical Classification of Lexical Functions
for Collocations in Spanish [6.9454683800956705]
スペイン語の動詞・名詞のコロケーションと文の出現頻度が最も高いデータセットを提示する。
各コロケーションは、階層分類タスクのクラスとして定義される37の語彙関数の1つに割り当てられる。
木構造にクラスを結合し,構造レベル毎に分類対象を導入する。
論文 参考訳(メタデータ) (2023-11-07T18:32:34Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - BabelEnconding at SemEval-2020 Task 3: Contextual Similarity as a
Combination of Multilingualism and Language Models [0.5276232626689568]
本稿では,SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity (BabelEnconding) to SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity。
論文 参考訳(メタデータ) (2020-08-19T13:46:37Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。