論文の概要: Multi-Fusion Chinese WordNet (MCW) : Compound of Machine Learning and
Manual Correction
- arxiv url: http://arxiv.org/abs/2002.01761v1
- Date: Wed, 5 Feb 2020 12:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 20:53:59.180890
- Title: Multi-Fusion Chinese WordNet (MCW) : Compound of Machine Learning and
Manual Correction
- Title(参考訳): multi-fusion chinese wordnet (mcw) : 機械学習と手動修正の複合化
- Authors: Mingchen Li and Zili Zhou and Yanna Wang
- Abstract要約: 文法と意味論の問題を解決するために,中国語の5つのワーネットが開発された。
その中には、ノースイースタン大学 Chinese WordNet (NEW), Sinica Bilingual Ontological WordNet (BOW), Southeast University Chinese WordNet (SEW), Taiwan University Chinese WordNet (CWN), Chinese Open WordNet (COW)などが含まれる。
我々は、これらの欠点を補うために、Multi-Fusion Chinese Wordnet(MCW)と呼ばれる新しい中国語のワードネットを作ることに決めた。
- 参考スコア(独自算出の注目度): 7.471172518764192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Princeton WordNet (PWN) is a lexicon-semantic network based on cognitive
linguistics, which promotes the development of natural language processing.
Based on PWN, five Chinese wordnets have been developed to solve the problems
of syntax and semantics. They include: Northeastern University Chinese WordNet
(NEW), Sinica Bilingual Ontological WordNet (BOW), Southeast University Chinese
WordNet (SEW), Taiwan University Chinese WordNet (CWN), Chinese Open WordNet
(COW). By using them, we found that these word networks have low accuracy and
coverage, and cannot completely portray the semantic network of PWN. So we
decided to make a new Chinese wordnet called Multi-Fusion Chinese Wordnet (MCW)
to make up those shortcomings. The key idea is to extend the SEW with the help
of Oxford bilingual dictionary and Xinhua bilingual dictionary, and then
correct it. More specifically, we used machine learning and manual adjustment
in our corrections. Two standards were formulated to help our work. We
conducted experiments on three tasks including relatedness calculation, word
similarity and word sense disambiguation for the comparison of lemma's
accuracy, at the same time, coverage also was compared. The results indicate
that MCW can benefit from coverage and accuracy via our method. However, it
still has room for improvement, especially with lemmas. In the future, we will
continue to enhance the accuracy of MCW and expand the concepts in it.
- Abstract(参考訳): Princeton WordNet (PWN) は認知言語学に基づく語彙意味ネットワークであり、自然言語処理の発展を促進する。
PWNに基づいて、構文と意味論の問題を解決するために5つの中国語のワーネットが開発された。
その中には、northeast university chinese wordnet (new)、sinica bilingual ontological wordnet (bow)、southeast university chinese wordnet (sew)、taiwan university chinese wordnet (cwn)、china open wordnet (cow)がある。
これらを用いて,これらの単語ネットワークの精度とカバレッジが低く,PWNのセマンティックネットワークを完全に表現できないことがわかった。
そこで我々は、これらの欠点を補うために、Multi-Fusion Chinese Wordnet(MCW)という新しい中国語のワードネットを作ることにした。
鍵となるアイデアは、オックスフォードバイリンガル辞書と新華バイリンガル辞書の助けを借りてSEWを拡張し、修正することだ。
具体的には、修正に機械学習と手動調整を使いました。
作業を支援するために2つの基準が策定された。
関連度計算,単語の類似度,単語感覚の曖昧さの3つの課題について,補題の正確性の比較を行った。
その結果,mcwは,本手法によるカバレッジと精度の恩恵を受けることができた。
しかし、特に補題では改善の余地がある。
将来的には,MCWの精度を向上し,その概念を拡大していく。
関連論文リスト
- Advancing the Arabic WordNet: Elevating Content Quality [8.438749883590216]
本稿では,複数次元のレキシコ・セマンティックな資源品質に対処するアラビア語WordNetの大規模な改訂について紹介する。
既存のアラビア語のWordNetのシンセセットの58%以上を更新します。
言語多様性と非翻訳性の問題に対処するため,新しい要素であるフレーズと語彙のギャップによってワードネット構造を拡張した。
論文 参考訳(メタデータ) (2024-03-29T14:54:19Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Injecting Wiktionary to improve token-level contextual representations
using contrastive learning [2.761009930426063]
我々は、英語ウィキオンリーを用いて、レキシコンを代替の監督源として注入する方法を検討する。
また、次元の減少が結果の文脈的単語の埋め込みにどのように影響するかを検証する。
論文 参考訳(メタデータ) (2024-02-12T17:22:42Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models [42.75756994523378]
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-20T06:20:03Z) - Automatically constructing Wordnet synsets [2.363388546004777]
本稿では,資源に富む言語と資源に乏しい言語に対して,Wordnetシンセセットを生成する手法を提案する。
提案アルゴリズムは,既存のWordnetの構文を対象言語Tに翻訳し,翻訳候補にランク付け手法を適用してTで最良の翻訳を見つける。
論文 参考訳(メタデータ) (2022-08-08T02:02:18Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Automatic Construction of Filipino WordNet: Word Sense Induction
and Synset Induction Using Sentence Embeddings [0.7214142393172727]
本研究では,2つの言語資源のみを用いた単語知覚誘導と合成誘導の手法を提案する。
結果として得られる感覚のインベントリとシノニムセットは、ワードネットを自動生成するのに使用することができる。
本研究は、誘導された単語感覚の30%が有効であり、誘導された合成セットの40%が新規な合成セットであることを示す。
論文 参考訳(メタデータ) (2022-04-07T06:50:37Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。