論文の概要: Language models in word sense disambiguation for Polish
- arxiv url: http://arxiv.org/abs/2111.13982v1
- Date: Sat, 27 Nov 2021 20:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 14:55:06.812000
- Title: Language models in word sense disambiguation for Polish
- Title(参考訳): ポーランド語における単語感覚の曖昧さの言語モデル
- Authors: Agnieszka Mykowiecka, Agnieszka A. Mykowiecka, Piotr Rychlik
- Abstract要約: ニューラル言語モデルを用いて、あいまいな単語と同じような単語を予測する。
これらの単語に基づいて,単語知覚の分割を異なる方法で予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the paper, we test two different approaches to the {unsupervised} word
sense disambiguation task for Polish. In both methods, we use neural language
models to predict words similar to those being disambiguated and, on the basis
of these words, we predict the partition of word senses in different ways. In
the first method, we cluster selected similar words, while in the second, we
cluster vectors representing their subsets. The evaluation was carried out on
texts annotated with plWordNet senses and provided a relatively good result
(F1=0.68 for all ambiguous words). The results are significantly better than
those obtained for the neural model-based unsupervised method proposed in
\cite{waw:myk:17:Sense} and are at the level of the supervised method presented
there. The proposed method may be a way of solving word sense disambiguation
problem for languages that lack sense annotated data.
- Abstract(参考訳): 本稿ではポーランド語における「教師なし」単語感覚曖昧化課題に対する2つの異なるアプローチを検証した。
どちらの手法でも、曖昧な単語と類似した単語を予測するためにニューラルネットワークモデルを使用し、これらの単語に基づいて、異なる方法で単語知覚の分割を予測する。
第1の方法では、類似した単語をクラスタリングし、第2の方法では、それらのサブセットを表すベクトルをクラスタ化する。
この評価はplWordNetに注釈を付けたテキストで行われ、比較的良い結果が得られた(すべての曖昧な単語に対してF1=0.68)。
この結果は, \cite{waw:myk:17:sense} で提案したニューラルモデルに基づく非教師なし法に比べて有意に優れており,そこで提示される教師付き手法のレベルである。
提案手法は, 注釈付きデータに欠ける言語に対して, 単語感覚の曖昧さを解消する方法である。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Structural Ambiguity and its Disambiguation in Language Model Based
Parsers: the Case of Dutch Clause Relativization [2.9950872478176627]
先行文の存在が相対的節の曖昧さをいかに解決するかを考察する。
その結果、証明ネットに基づくニューロシンボリックは、普遍的な依存関係に基づくアプローチよりも、データ偏差補正に対してよりオープンであることが示された。
論文 参考訳(メタデータ) (2023-05-24T09:04:18Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Contextualized Word Vector-based Methods for Discovering Semantic
Differences with No Training nor Word Alignment [17.229611956178818]
2つのコーパスに現れる単語の意味的差異を検出する手法を提案する。
キーとなる考え方は、意味のカバレッジはその平均語ベクトルのノルムに反映されるということである。
これらの利点は、原住民や非先住民のイングランドのコーパスや、歴史的コーパスにも見られる。
論文 参考訳(メタデータ) (2023-05-19T08:27:17Z) - Detecting Word Sense Disambiguation Biases in Machine Translation for
Model-Agnostic Adversarial Attacks [84.61578555312288]
本稿では,統計的データ特性に基づく曖昧な誤りの予測手法を提案する。
我々は,曖昧な誤りを生じさせるため,文の摂動を最小限に抑える,単純な敵攻撃戦略を開発する。
以上の結果から,曖昧さの堅牢性はドメイン間で大きく異なり,同一データ上でトレーニングされた異なるモデルが異なる攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2020-11-03T17:01:44Z) - Neural disambiguation of lemma and part of speech in morphologically
rich languages [0.6346772579930928]
形態的に豊かな言語における不明瞭な単語の補題と発話の一部を曖昧にすることの問題点を考察する。
そこで本稿では, テキストの未注釈コーパスと形態素解析を用いて, 文脈におけるあいまいな単語の曖昧さを解消する手法を提案する。
論文 参考訳(メタデータ) (2020-07-12T21:48:52Z) - Combining Neural Language Models for WordSense Induction [0.5199765487172326]
単語感覚誘導(WSI)は、この単語の表現された感覚に応じて曖昧な単語の発生をグループ化する問題である。
近年,この課題に対する新たなアプローチが提案され,特定の文脈におけるあいまいな単語の代用となる可能性が示唆された。
本研究では、このアプローチをロシア語に適用し、2つの方法で改善する。
論文 参考訳(メタデータ) (2020-06-23T17:57:25Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。