論文の概要: Solving Word-Sense Disambiguation and Word-Sense Induction with Dictionary Examples
- arxiv url: http://arxiv.org/abs/2503.04328v1
- Date: Thu, 06 Mar 2025 11:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:31.617301
- Title: Solving Word-Sense Disambiguation and Word-Sense Induction with Dictionary Examples
- Title(参考訳): 辞書例を用いた単語センス曖昧化と単語センス誘導の解法
- Authors: Tadej Škvorc, Marko Robnik-Šikonja,
- Abstract要約: 多くの低リソース言語は、大きなタスク固有のデータセットの欠如に苦慮している。
辞書は、大きな情報内容にもかかわらず、リソースの少ない言語で滅多に使われない。
我々は、LLMが、リソースの少ない言語で既存の言語リソースを拡張するのにどのように使えるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Many less-resourced languages struggle with a lack of large, task-specific datasets that are required for solving relevant tasks with modern transformer-based large language models (LLMs). On the other hand, many linguistic resources, such as dictionaries, are rarely used in this context despite their large information contents. We show how LLMs can be used to extend existing language resources in less-resourced languages for two important tasks: word-sense disambiguation (WSD) and word-sense induction (WSI). We approach the two tasks through the related but much more accessible word-in-context (WiC) task where, given a pair of sentences and a target word, a classification model is tasked with predicting whether the sense of a given word differs between sentences. We demonstrate that a well-trained model for this task can distinguish between different word senses and can be adapted to solve the WSD and WSI tasks. The advantage of using the WiC task, instead of directly predicting senses, is that the WiC task does not need pre-constructed sense inventories with a sufficient number of examples for each sense, which are rarely available in less-resourced languages. We show that sentence pairs for the WiC task can be successfully generated from dictionary examples using LLMs. The resulting prediction models outperform existing models on WiC, WSD, and WSI tasks. We demonstrate our methodology on the Slovene language, where a monolingual dictionary is available, but word-sense resources are tiny.
- Abstract(参考訳): 多くの低リソース言語は、現代的なトランスフォーマーベースの大規模言語モデル(LLM)で関連するタスクを解決するのに必要な、大規模でタスク固有のデータセットの欠如に苦慮している。
一方、辞書などの多くの言語資源は、膨大な情報内容にもかかわらず、この文脈ではほとんど使われない。
本稿では,LLMが,単語センス曖昧化(WSD)と単語センス誘導(WSI)の2つの重要なタスクに対して,低リソース言語における既存の言語リソースの拡張にどのように使用できるかを示す。
文のペアと対象語が与えられた場合、与えられた単語の感覚が文間で異なるかどうかを予測するための分類モデルを構築する。
このタスクの訓練されたモデルは、異なる単語感覚を区別することができ、WSDおよびWSIタスクの解決に適応できることを実証する。
WiCタスクを使用する利点は、センスを直接予測するのではなく、各センスについて十分な数のサンプルを持つ事前構築されたセンスインベントリを必要としないことである。
LLMを用いて辞書例からWiCタスクの文対を生成することができることを示す。
結果として生じる予測モデルは、WiC、WSD、WSIタスクの既存のモデルより優れています。
モノリンガル辞書が利用できるが、単語センスのリソースは少ないスロベニア語について、我々の方法論を実証する。
関連論文リスト
- Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - AStitchInLanguageModels: Dataset and Methods for the Exploration of
Idiomaticity in Pre-Trained Language Models [7.386862225828819]
本研究は、MWEを含む自然発生文のデータセットを、細かな意味の集合に手作業で分類する。
我々は,このデータセットを,idiomを含む文の表現生成における言語モデルの有効性と,idiomを用いた言語モデルの有効性を検証するために,2つのタスクで使用する。
論文 参考訳(メタデータ) (2021-09-09T16:53:17Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。