論文の概要: The Analysis about Building Cross-lingual Sememe Knowledge Base Based on
Deep Clustering Network
- arxiv url: http://arxiv.org/abs/2208.05462v1
- Date: Wed, 10 Aug 2022 17:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:57:00.739281
- Title: The Analysis about Building Cross-lingual Sememe Knowledge Base Based on
Deep Clustering Network
- Title(参考訳): ディープクラスタリングネットワークに基づく言語間セメム知識ベースの構築に関する分析
- Authors: Xiaoran Li and Toshiaki Takano
- Abstract要約: Sememe knowledge bases (KB) には、Sememeに注釈を付けた単語が含まれている。
本稿では,ディープクラスタリングネットワーク(DCN)に基づく教師なしの手法を提案する。
- 参考スコア(独自算出の注目度): 0.7310043452300736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A sememe is defined as the minimum semantic unit of human languages. Sememe
knowledge bases (KBs), which contain words annotated with sememes, have been
successfully applied to many NLP tasks, and we believe that by learning the
smallest unit of meaning, computers can more easily understand human language.
However, Existing sememe KBs are built on only manual annotation, human
annotations have personal understanding biases, and the meaning of vocabulary
will be constantly updated and changed with the times, and artificial methods
are not always practical. To address the issue, we propose an unsupervised
method based on a deep clustering network (DCN) to build a sememe KB, and you
can use any language to build a KB through this method. We first learn the
distributed representation of multilingual words, use MUSE to align them in a
single vector space, learn the multi-layer meaning of each word through the
self-attention mechanism, and use a DNC to cluster sememe features. Finally, we
completed the prediction using only the 10-dimensional sememe space in English.
We found that the low-dimensional space can still retain the main feature of
the sememes.
- Abstract(参考訳): セメムは人間の言語の最小意味単位として定義される。
sememe knowledge bases (kbs) はsememeでアノテートされた単語を含み、多くのnlpタスクにうまく適用されており、最小の意味単位を学習することで、コンピュータは人間の言語をより容易に理解できると信じている。
しかし、既存のセメムkbは手動アノテーションのみに基づいて構築されており、人間のアノテーションには個人的理解バイアスがあり、語彙の意味は時代とともに常に更新され変化し、人工的な手法は常に実用的ではない。
この問題に対処するため,我々は,sememe kbを構築するためのdeep clustering network (dcn) に基づく教師なし手法を提案する。
まず、多言語単語の分散表現を学習し、MUSEを用いて単一のベクトル空間に整列し、自己認識機構を通じて各単語の多層意味を学習し、DNCを用いてセメム特徴をクラスタ化する。
最後に,英語の10次元セム空間のみを用いて予測を完了した。
その結果、低次元空間は依然としてセメムの主特徴を保持することができることがわかった。
関連論文リスト
- Translate Meanings, Not Just Words: IdiomKB's Role in Optimizing
Idiomatic Translation with Language Models [57.60487455727155]
idiomsは非構成的な性質を持ち、Transformerベースのシステムに特別な課題を提起する。
既存の知識ベース(KB)を使ってイディオムを置き換える伝統的な手法は、しばしばスケールとコンテキストの認識を欠いている。
大規模なLMを用いて開発した多言語イディオムKB (IdiomKB) を提案する。
このKBはBLOOMZ (7.1B)、Alpaca (7B)、InstructGPT (6.7B)のようなより小さなモデルによるより良い翻訳を促進する
論文 参考訳(メタデータ) (2023-08-26T21:38:31Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Automatic Construction of Sememe Knowledge Bases via Dictionaries [53.8700954466358]
セメム知識ベース(SKB)は、セメムを自然言語処理に適用することを可能にする。
ほとんどの言語はSKBを持っておらず、手作業によるSKBの構築は時間と労力がかかる。
本稿では,既存の辞書を用いてSKBを構築するための簡易かつ完全自動手法を提案する。
論文 参考訳(メタデータ) (2021-05-26T14:41:01Z) - Linguistic Classification using Instance-Based Learning [0.0]
コントラリア的アプローチを採用し、かなり制約のあるツリーベースモデルに疑問を呈する。
例えば、サンスクリットがインド・ヨーロッパ語にまたがる言語と独立して親和性は、ネットワークモデルを用いてよりよく説明できる。
インドにおける言語間の相互関係についても同じことが言えます。
論文 参考訳(メタデータ) (2020-12-02T04:12:10Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。