論文の概要: Tsetlin Machine Embedding: Representing Words Using Logical Expressions
- arxiv url: http://arxiv.org/abs/2301.00709v1
- Date: Mon, 2 Jan 2023 15:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:32:24.529355
- Title: Tsetlin Machine Embedding: Representing Words Using Logical Expressions
- Title(参考訳): Tsetlin Machine Embedding:論理式を用いた単語表現
- Authors: Bimal Bhattarai and Ole-Christoffer Granmo and Lei Jiao and Rohan
Yadav and Jivitesh Sharma
- Abstract要約: 本稿では,論理節を自己教師する自動エンコーダについて紹介する。
節は、"black"、"cup"、"hot"のような文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
- 参考スコア(独自算出の注目度): 10.825099126920028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding words in vector space is a fundamental first step in
state-of-the-art natural language processing (NLP). Typical NLP solutions
employ pre-defined vector representations to improve generalization by
co-locating similar words in vector space. For instance, Word2Vec is a
self-supervised predictive model that captures the context of words using a
neural network. Similarly, GLoVe is a popular unsupervised model incorporating
corpus-wide word co-occurrence statistics. Such word embedding has
significantly boosted important NLP tasks, including sentiment analysis,
document classification, and machine translation. However, the embeddings are
dense floating-point vectors, making them expensive to compute and difficult to
interpret. In this paper, we instead propose to represent the semantics of
words with a few defining words that are related using propositional logic. To
produce such logical embeddings, we introduce a Tsetlin Machine-based
autoencoder that learns logical clauses self-supervised. The clauses consist of
contextual words like "black," "cup," and "hot" to define other words like
"coffee," thus being human-understandable. We evaluate our embedding approach
on several intrinsic and extrinsic benchmarks, outperforming GLoVe on six
classification tasks. Furthermore, we investigate the interpretability of our
embedding using the logical representations acquired during training. We also
visualize word clusters in vector space, demonstrating how our logical
embedding co-locate similar words.
- Abstract(参考訳): ベクトル空間に単語を埋め込むことは、最先端自然言語処理(NLP)の基本的な第一歩である。
典型的なNLPソリューションは、ベクトル空間内で類似した単語を共配置することで一般化を改善するために定義済みのベクトル表現を用いる。
例えば、word2vecは、ニューラルネットワークを使用して単語のコンテキストをキャプチャする、自己教師付き予測モデルである。
同様に、GLoVeはコーパスワイドワード共起統計を組み込んだ教師なしの一般的なモデルである。
このような単語埋め込みは感情分析、文書分類、機械翻訳などの重要なNLPタスクを著しく向上させた。
しかし、埋め込みは密度の高い浮動小数点ベクトルであり、計算が高価で解釈が難しい。
本稿では,命題論理を用いて,単語の意味を,いくつかの定義語で表現することを提案する。
このような論理埋め込みを生成するために,Tsetlin Machineを用いた自動エンコーダを導入する。
この節は、"black"、"cup"、"hot"といった文脈的な単語からなり、"coffee"のような他の単語を定義する。
我々は,GLoVeを6つの分類タスクで上回り,いくつかの内在的および外在的ベンチマークに対する埋め込み手法の評価を行った。
さらに,学習中に得られる論理的表現を用いて,埋め込みの解釈可能性を検討する。
また、ベクトル空間内の単語クラスタを視覚化し、論理埋め込みが類似した単語を同じ場所に置く方法を示します。
関連論文リスト
- Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - WOVe: Incorporating Word Order in GloVe Word Embeddings [0.0]
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
論文 参考訳(メタデータ) (2021-05-18T15:28:20Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Modelling General Properties of Nouns by Selectively Averaging
Contextualised Embeddings [46.49372320363155]
本稿では,BERTによって予測される文脈的埋め込みを用いて,高品質な単語ベクトルを生成する方法を示す。
マスク付き単語参照の文脈的埋め込みを平均化する単純な戦略が静的な単語ベクトルよりも優れたベクトルをもたらすことが判明した。
論文 参考訳(メタデータ) (2020-12-04T14:03:03Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。