論文の概要: CEFR-Annotated WordNet: LLM-Based Proficiency-Guided Semantic Database for Language Learning
- arxiv url: http://arxiv.org/abs/2510.18466v1
- Date: Tue, 21 Oct 2025 09:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.333522
- Title: CEFR-Annotated WordNet: LLM-Based Proficiency-Guided Semantic Database for Language Learning
- Title(参考訳): CEFR- Annotated WordNet:LLMに基づく言語学習のための習熟指導型セマンティックデータベース
- Authors: Masato Kikuchi, Masatsugu Ono, Toshioki Soga, Tetsu Tanabe, Tadachika Ozono,
- Abstract要約: 我々は、共通ヨーロッパ言語参照フレームワーク(CEFR)を付加したWordNetを開発する。
我々は、WordNetにおける感覚定義と英語語彙プロファイルオンラインにおけるエントリのセマンティックな類似性を測定する。
実験により, コーパス上で微調整されたモデルが金標準アノテーションで訓練されたモデルと相容れない性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although WordNet is a valuable resource owing to its structured semantic networks and extensive vocabulary, its fine-grained sense distinctions can be challenging for second-language learners. To address this, we developed a WordNet annotated with the Common European Framework of Reference for Languages (CEFR), integrating its semantic networks with language-proficiency levels. We automated this process using a large language model to measure the semantic similarity between sense definitions in WordNet and entries in the English Vocabulary Profile Online. To validate our method, we constructed a large-scale corpus containing both sense and CEFR-level information from our annotated WordNet and used it to develop contextual lexical classifiers. Our experiments demonstrate that models fine-tuned on our corpus perform comparably to those trained on gold-standard annotations. Furthermore, by combining our corpus with the gold-standard data, we developed a practical classifier that achieves a Macro-F1 score of 0.81, indicating the high accuracy of our annotations. Our annotated WordNet, corpus, and classifiers are publicly available to help bridge the gap between natural language processing and language education, thereby facilitating more effective and efficient language learning.
- Abstract(参考訳): WordNetは、構造化セマンティックネットワークと広範な語彙によって貴重なリソースであるが、その微粒化されたセンスの区別は、第二言語学習者にとって困難である。
そこで我々は,共通ヨーロッパ言語参照フレームワーク(CEFR)を付加したWordNetを開発し,その意味ネットワークを言語習熟度レベルに統合した。
我々は,この処理を大規模言語モデルを用いて自動化し,WordNetのセンス定義と英語語彙プロファイルオンラインのエントリ間の意味的類似性を測定する。
提案手法を検証するために,アノテーション付きWordNetからの感覚情報とCEFRレベルの情報の両方を含む大規模コーパスを構築し,文脈語彙分類器の開発に利用した。
実験により, コーパス上で微調整されたモデルが金標準アノテーションで訓練されたモデルと相容れない性能を示した。
さらに, コーパスと金標準データを組み合わせることで, マクロF1スコア0.81の実用的な分類器を開発し, アノテーションの精度を示す。
我々の注釈付きWordNet、コーパス、分類器は、自然言語処理と言語教育のギャップを埋め、より効果的で効率的な言語学習を促進するのに役立つ。
関連論文リスト
- Autoencoder-Based Framework to Capture Vocabulary Quality in NLP [2.41710192205034]
語彙の豊かさ、多様性、複雑さのプロキシとしてニューラルネットワーク容量を使用するオートエンコーダベースのフレームワークを導入する。
本研究のアプローチは2つの異なるデータセットであるDIFrauDデータセットと,さまざまな言語,ジャンル,歴史期間を表すProject Gutenbergデータセットに対して検証を行った。
論文 参考訳(メタデータ) (2025-02-28T21:45:28Z) - ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Sentence [40.4052848203136]
インプシット言語は, 自然言語処理システムにおいて, 正確なテキスト理解を実現し, ユーザとの自然な対話を促進するために不可欠である。
本稿では,外部参照に頼ることなく,言語の暗黙度を定量化するスカラー計量を開発した。
InmpScoreのユーザによる評価を,アウト・オブ・ディストリビューションデータに基づく人間による評価と比較することで検証する。
論文 参考訳(メタデータ) (2024-11-07T20:23:29Z) - Deep Emotions Across Languages: A Novel Approach for Sentiment
Propagation in Multilingual WordNets [4.532887563053358]
本稿では,感傷アノテーションを一部注釈付きWordNetからその全体へ,異なる言語でWordNetへ自動的に伝達する2つの新しい手法を紹介する。
言語間関係の大きい Princeton WordNet と Polish WordNet を用いて,提案した MSSE+CLDNS 法を広範囲に評価した。
以上の結果から,MSSE+CLDNS法は既存の伝搬法よりも優れており,複数の言語にまたがる感情的メタデータを用いたWordNetの強化の有効性が示唆された。
論文 参考訳(メタデータ) (2023-12-07T21:44:14Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Don't Neglect the Obvious: On the Role of Unambiguous Words in Word
Sense Disambiguation [5.8523859781812435]
本稿では,現在最先端の伝搬モデルを用いて,単語知覚埋め込みのカバレッジと品質を拡張できることを示す。
UWA(Unambiguous Word s)データセットを導入し、最先端の伝搬モデルを用いて単語感覚埋め込みのカバレッジと品質を拡張する方法を示す。
論文 参考訳(メタデータ) (2020-04-29T16:51:21Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。