論文の概要: In the LLM era, Word Sense Induction remains unsolved
- arxiv url: http://arxiv.org/abs/2603.11686v1
- Date: Thu, 12 Mar 2026 08:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.97534
- Title: In the LLM era, Word Sense Induction remains unsolved
- Title(参考訳): LLM時代における単語センス誘導は未解決のままである
- Authors: Anna Mosolova, Marie Candito, Carlos Ramisch,
- Abstract要約: 本稿では,SemCor 由来のデータセットの評価を行い,コーパスのポリセミーと周波数分布を考察する。
言語の一部にまたがる事前学習された埋め込みとクラスタリングのアルゴリズムを評価し,LLMに基づく英語WSI手法の提案と評価を行った。
- 参考スコア(独自算出の注目度): 5.5822932775420115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the absence of sense-annotated data, word sense induction (WSI) is a compelling alternative to word sense disambiguation, particularly in low-resource or domain-specific settings. In this paper, we emphasize methodological problems in current WSI evaluation. We propose an evaluation on a SemCor-derived dataset, respecting the original corpus polysemy and frequency distributions. We assess pre-trained embeddings and clustering algorithms across parts of speech, and propose and evaluate an LLM-based WSI method for English. We evaluate data augmentation sources (LLM-generated, corpus and lexicon), and semi-supervised scenarios using Wiktionary for data augmentation, must-link constraints, number of clusters per lemma. We find that no unsupervised method (whether ours or previous) surpasses the strong "one cluster per lemma" heuristic (1cpl). We also show that (i) results and best systems may vary across POS, (ii) LLMs have troubles performing this task, (iii) data augmentation is beneficial and (iv) capitalizing on Wiktionary does help. It surpasses previous SOTA system on our test set by 3.3\%. WSI is not solved, and calls for a better articulation of lexicons and LLMs' lexical semantics capabilities.
- Abstract(参考訳): センスアノテートされたデータがない場合、単語センス誘導(WSI)は、特に低リソースまたはドメイン固有の設定において、単語センスの曖昧さに対する魅力的な代替手段である。
本稿では,現在のWSI評価における方法論的問題を強調する。
本稿では,SemCor 由来のデータセットの評価を行い,コーパスのポリセミーと周波数分布を考察する。
言語の一部にまたがる事前学習された埋め込みとクラスタリングのアルゴリズムを評価し,LLMに基づく英語WSI手法の提案と評価を行った。
我々は,データ拡張源(LLM生成,コーパス,レキシコン)とWiktionaryを用いた半教師付きシナリオの評価を行った。
教師なしの手法が強い「レムマ当たりの1クラスタ」ヒューリスティック(1cpl)を超えないことが判明した。
以下も示す。
(i)結果と最適システムはPOSによって異なる場合がある。
二 LLM は、この作業を行うのに苦労する。
三 データの増強が益であり、
(4)Wiktionaryの収益化は助けになる。
テストセットの以前のSOTAシステムを3.3\%上回る。
WSIは解決されず、レキシコンとLLMのレキシカルセマンティクス機能をより明確にすることを求めている。
関連論文リスト
- LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian [0.21485350418225246]
GliLemはエストニア人のための新しいハイブリッド補題システムである。
本稿では,事前学習したGliNERモデルの柔軟性を活用し,Vabamorfの補間精度を向上させる。
論文 参考訳(メタデータ) (2024-12-29T22:02:00Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Word Sense Induction with Hierarchical Clustering and Mutual Information
Maximization [14.997937028599255]
単語知覚誘導は自然言語処理において難しい問題である。
階層的クラスタリングと不変情報クラスタリングに基づく新しい教師なし手法を提案する。
我々は、ある場合において、我々のアプローチが先行したWSIの最先端手法よりも優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-11T13:04:06Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。