論文の概要: Monolingual alignment of word senses and definitions in lexicographical
resources
- arxiv url: http://arxiv.org/abs/2209.02465v1
- Date: Tue, 6 Sep 2022 13:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:45:27.351446
- Title: Monolingual alignment of word senses and definitions in lexicographical
resources
- Title(参考訳): 単語感覚の単言語的アライメントと語彙的資源の定義
- Authors: Sina Ahmadi
- Abstract要約: この論文の焦点は、辞書、特に辞書のアライメントである。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。
このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The focus of this thesis is broadly on the alignment of lexicographical data,
particularly dictionaries. In order to tackle some of the challenges in this
field, two main tasks of word sense alignment and translation inference are
addressed. The first task aims to find an optimal alignment given the sense
definitions of a headword in two different monolingual dictionaries. This is a
challenging task, especially due to differences in sense granularity, coverage
and description in two resources. After describing the characteristics of
various lexical semantic resources, we introduce a benchmark containing 17
datasets of 15 languages where monolingual word senses and definitions are
manually annotated across different resources by experts. In the creation of
the benchmark, lexicographers' knowledge is incorporated through the
annotations where a semantic relation, namely exact, narrower, broader, related
or none, is selected for each sense pair. This benchmark can be used for
evaluation purposes of word-sense alignment systems. The performance of a few
alignment techniques based on textual and non-textual semantic similarity
detection and semantic relation induction is evaluated using the benchmark.
Finally, we extend this work to translation inference where translation pairs
are induced to generate bilingual lexicons in an unsupervised way using various
approaches based on graph analysis. This task is of particular interest for the
creation of lexicographical resources for less-resourced and under-represented
languages and also, assists in increasing coverage of the existing resources.
From a practical point of view, the techniques and methods that are developed
in this thesis are implemented within a tool that can facilitate the alignment
task.
- Abstract(参考訳): この論文の焦点は、語彙データ、特に辞書のアライメントに広く焦点をあてている。
この分野での課題のいくつかに取り組むために、単語感覚アライメントと翻訳推論の2つの主要なタスクに対処する。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義から最適なアライメントを見つけることである。
これは、特に2つのリソースにおける感覚の粒度、カバレッジ、記述の違いのため、難しいタスクです。
語彙的セマンティックリソースの特徴を説明した後、専門家によって言語単位の単語感覚と定義を手動で注釈付けする15言語17のデータセットを含むベンチマークを導入する。
ベンチマークの作成において、レキシコグラフィーの知識は、意味的関係、すなわち、より正確で、より狭く、より広く、関連するもの、あるいは全くないものを選び出すアノテーションを通して取り入れられる。
このベンチマークは、ワードセンスアライメントシステムの評価目的に使用できる。
テキストと非テキストのセマンティック類似度検出と意味関係誘導に基づくアライメント手法の性能をベンチマークを用いて評価した。
最後に、この研究を、グラフ解析に基づく様々なアプローチを用いて、バイリンガル辞書を生成するために翻訳ペアを誘導する翻訳推論に拡張する。
このタスクは、リソース不足や表現不足の少ない言語のための語彙的リソースの作成や、既存のリソースのカバレッジ向上の支援に特に関心がある。
実践的な観点からは、この論文で開発された技術や手法は、アライメントタスクを容易にするツール内に実装されている。
関連論文リスト
- How well do distributed representations convey contextual lexical semantics: a Thesis Proposal [3.3585951129432323]
本稿では,現代ニューラルネットワークによる語彙意味の符号化における分散表現の有効性について検討する。
文脈に影響された意味の関連性と類似性に基づいて,曖昧さの4つの源を同定する。
次に、多言語データセットの収集や構築、様々な言語モデルの利用、言語解析ツールの利用により、これらの情報源を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-02T14:08:51Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。