論文の概要: Automatic WordNet Construction using Word Sense Induction through
Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2204.03251v2
- Date: Fri, 4 Aug 2023 11:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:49:11.662703
- Title: Automatic WordNet Construction using Word Sense Induction through
Sentence Embeddings
- Title(参考訳): 文埋め込みによる単語センス誘導を用いたワードネットの自動構築
- Authors: Dan John Velasco, Axel Alba, Trisha Gail Pelagio, Bryce Anthony
Ramirez, Jan Christian Blaise Cruz and Charibeth Cheng
- Abstract要約: 本稿では,未ラベルコーパスと文埋め込み型言語モデルのみを用いて,スクラッチからワーネットを構築する手法を提案する。
FilWordNetは、古いフィリピンのWordNetを代替し、改善する新しいワードネットです。
提案手法は,人間の監督を必要とせずに,既存の感覚やシンセットを自動生成することができることを実証的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language resources such as wordnets remain indispensable tools for different
natural language tasks and applications. However, for low-resource languages
such as Filipino, existing wordnets are old and outdated, and producing new
ones may be slow and costly in terms of time and resources. In this paper, we
propose an automatic method for constructing a wordnet from scratch using only
an unlabeled corpus and a sentence embeddings-based language model. Using this,
we produce FilWordNet, a new wordnet that supplants and improves the outdated
Filipino WordNet. We evaluate our automatically-induced senses and synsets by
matching them with senses from the Princeton WordNet, as well as comparing the
synsets to the old Filipino WordNet. We empirically show that our method can
induce existing, as well as potentially new, senses and synsets automatically
without the need for human supervision.
- Abstract(参考訳): Wordnetsのような言語リソースは、さまざまな自然言語タスクやアプリケーションに必須のツールである。
しかし、フィリピンのような低リソース言語では、既存のワードネットは古く時代遅れであり、新しいワードネットの生成は時間とリソースの面で遅くコストがかかる可能性がある。
本稿では,ラベルなしコーパスと文埋め込み型言語モデルのみを用いて,スクラッチから単語ネットを構築する自動手法を提案する。
これを用いて、フィリピンの古いWordNetを置き換え、改善する新しいワードネットであるFilWordNetを作成する。
我々は、この自動誘発感覚と合成集合をプリンストンワードネットの感覚とマッチングし、その合成集合を旧フィリピンワードネットと比較することで評価する。
提案手法は,人間の監督を必要とせずに,既存の感覚やシンセットを自動生成することができることを実証的に示す。
関連論文リスト
- Coarse-Grained Sense Inventories Based on Semantic Matching between English Dictionaries [0.0]
我々はケンブリッジの辞書やWordNetの感覚定義とセマンティックにマッチングし、より粗い感覚の在庫を新たに開発する。
提案された在庫の利点は、大規模資源への依存度が低いこと、密接に関連する感覚の集約性の向上、CEFRレベルの割り当て、拡張と改善の容易さである。
論文 参考訳(メタデータ) (2024-09-10T10:08:58Z) - Automatically constructing Wordnet synsets [2.363388546004777]
本稿では,資源に富む言語と資源に乏しい言語に対して,Wordnetシンセセットを生成する手法を提案する。
提案アルゴリズムは,既存のWordnetの構文を対象言語Tに翻訳し,翻訳候補にランク付け手法を適用してTで最良の翻訳を見つける。
論文 参考訳(メタデータ) (2022-08-08T02:02:18Z) - Semi-automatic WordNet Linking using Word Embeddings [33.15250956247636]
リンクされたワードネットは、異なる言語のワードネットで同様の概念をリンクするワードネットの拡張である。
本稿では,ワードネットをリンクする手法を提案する。ソースコードのシンセセットが与えられた場合,候補候補シンセセットのランクリストを返す。
我々の手法は、すべての合成集合の60%と名詞の合成集合の70%で上位10位の合成集合を検索することができる。
論文 参考訳(メタデータ) (2022-01-05T18:15:55Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Moving Down the Long Tail of Word Sense Disambiguation with
Gloss-Informed Biencoders [79.38278330678965]
Word Sense Disambiguation (WSD)の主な障害は、単語感覚が均一に分散されないことである。
本稿では,(1)対象語とその周囲の文脈を独立に埋め込んだバイエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T04:21:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Multi-Fusion Chinese WordNet (MCW) : Compound of Machine Learning and
Manual Correction [7.471172518764192]
文法と意味論の問題を解決するために,中国語の5つのワーネットが開発された。
その中には、ノースイースタン大学 Chinese WordNet (NEW), Sinica Bilingual Ontological WordNet (BOW), Southeast University Chinese WordNet (SEW), Taiwan University Chinese WordNet (CWN), Chinese Open WordNet (COW)などが含まれる。
我々は、これらの欠点を補うために、Multi-Fusion Chinese Wordnet(MCW)と呼ばれる新しい中国語のワードネットを作ることに決めた。
論文 参考訳(メタデータ) (2020-02-05T12:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。