論文の概要: Towards Automatic Construction of Filipino WordNet: Word Sense Induction
and Synset Induction Using Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2204.03251v3
- Date: Thu, 19 Oct 2023 06:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 21:32:45.008986
- Title: Towards Automatic Construction of Filipino WordNet: Word Sense Induction
and Synset Induction Using Sentence Embeddings
- Title(参考訳): フィリピン語単語ネットの自動構築に向けて : 文埋め込みによる単語感覚誘発と合成誘導
- Authors: Dan John Velasco, Axel Alba, Trisha Gail Pelagio, Bryce Anthony
Ramirez, Unisse Chua, Briane Paul Samson, Jan Christian Blaise Cruz and
Charibeth Cheng
- Abstract要約: 本研究では,2つの言語資源のみを用いた単語知覚誘導と合成誘導の手法を提案する。
結果として得られる感覚のインベントリとシノニムセットは、ワードネットを自動生成するのに使用することができる。
本研究は、誘導された単語感覚の30%が有効であり、誘導された合成セットの40%が新規な合成セットであることを示す。
- 参考スコア(独自算出の注目度): 0.7214142393172727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wordnets are indispensable tools for various natural language processing
applications. Unfortunately, wordnets get outdated, and producing or updating
wordnets can be slow and costly in terms of time and resources. This problem
intensifies for low-resource languages. This study proposes a method for word
sense induction and synset induction using only two linguistic resources,
namely, an unlabeled corpus and a sentence embeddings-based language model. The
resulting sense inventory and synonym sets can be used in automatically
creating a wordnet. We applied this method on a corpus of Filipino text. The
sense inventory and synsets were evaluated by matching them with the sense
inventory of the machine translated Princeton WordNet, as well as comparing the
synsets to the Filipino WordNet. This study empirically shows that the 30% of
the induced word senses are valid and 40% of the induced synsets are valid in
which 20% are novel synsets.
- Abstract(参考訳): Wordnetは様々な自然言語処理アプリケーションに必須のツールである。
残念ながら、wordnetは時代遅れになり、wordnetの生成や更新は時間とリソースの面で遅くてコストがかかります。
この問題は低リソース言語に強く影響する。
本研究では,2つの言語資源,すなわちラベルなしコーパスと文埋め込み型言語モデルを用いた単語知覚誘導と合成誘導手法を提案する。
結果として得られるセンスインベントリとシノニムセットは、wordnetの自動生成に使用できる。
本手法をフィリピン語のテキストコーパスに適用した。
センスインベントリとシンセセットは、そのマシンが翻訳したプリンストンワードネットのセンスインベントリと照合し、フィリピンのWordNetと比較することで評価された。
本研究は, 単語感覚の30%が有効であり, 誘導合成の40%が有効であり, 20%が新規合成であることを示す。
関連論文リスト
- Coarse-Grained Sense Inventories Based on Semantic Matching between English Dictionaries [0.0]
我々はケンブリッジの辞書やWordNetの感覚定義とセマンティックにマッチングし、より粗い感覚の在庫を新たに開発する。
提案された在庫の利点は、大規模資源への依存度が低いこと、密接に関連する感覚の集約性の向上、CEFRレベルの割り当て、拡張と改善の容易さである。
論文 参考訳(メタデータ) (2024-09-10T10:08:58Z) - Automatically constructing Wordnet synsets [2.363388546004777]
本稿では,資源に富む言語と資源に乏しい言語に対して,Wordnetシンセセットを生成する手法を提案する。
提案アルゴリズムは,既存のWordnetの構文を対象言語Tに翻訳し,翻訳候補にランク付け手法を適用してTで最良の翻訳を見つける。
論文 参考訳(メタデータ) (2022-08-08T02:02:18Z) - Semi-automatic WordNet Linking using Word Embeddings [33.15250956247636]
リンクされたワードネットは、異なる言語のワードネットで同様の概念をリンクするワードネットの拡張である。
本稿では,ワードネットをリンクする手法を提案する。ソースコードのシンセセットが与えられた場合,候補候補シンセセットのランクリストを返す。
我々の手法は、すべての合成集合の60%と名詞の合成集合の70%で上位10位の合成集合を検索することができる。
論文 参考訳(メタデータ) (2022-01-05T18:15:55Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Moving Down the Long Tail of Word Sense Disambiguation with
Gloss-Informed Biencoders [79.38278330678965]
Word Sense Disambiguation (WSD)の主な障害は、単語感覚が均一に分散されないことである。
本稿では,(1)対象語とその周囲の文脈を独立に埋め込んだバイエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T04:21:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Multi-Fusion Chinese WordNet (MCW) : Compound of Machine Learning and
Manual Correction [7.471172518764192]
文法と意味論の問題を解決するために,中国語の5つのワーネットが開発された。
その中には、ノースイースタン大学 Chinese WordNet (NEW), Sinica Bilingual Ontological WordNet (BOW), Southeast University Chinese WordNet (SEW), Taiwan University Chinese WordNet (CWN), Chinese Open WordNet (COW)などが含まれる。
我々は、これらの欠点を補うために、Multi-Fusion Chinese Wordnet(MCW)と呼ばれる新しい中国語のワードネットを作ることに決めた。
論文 参考訳(メタデータ) (2020-02-05T12:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。