論文の概要: Distributed Word Representation in Tsetlin Machine
- arxiv url: http://arxiv.org/abs/2104.06901v1
- Date: Wed, 14 Apr 2021 14:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:37:19.796299
- Title: Distributed Word Representation in Tsetlin Machine
- Title(参考訳): tsetlinマシンにおける分散単語表現
- Authors: Rohan Kumar Yadav, Lei Jiao, Ole-Christoffer Granmo, and Morten
Goodwin
- Abstract要約: Tsetlin Machine (TM) は命題論理に基づく解釈可能なパターン認識アルゴリズムである。
tmに事前学習した単語表現を用いる新しい手法を提案する。
このアプローチはTM性能を大幅に向上させ、同時に解釈性を維持します。
- 参考スコア(独自算出の注目度): 14.62945824459286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tsetlin Machine (TM) is an interpretable pattern recognition algorithm based
on propositional logic. The algorithm has demonstrated competitive performance
in many Natural Language Processing (NLP) tasks, including sentiment analysis,
text classification, and Word Sense Disambiguation (WSD). To obtain human-level
interpretability, legacy TM employs Boolean input features such as bag-of-words
(BOW). However, the BOW representation makes it difficult to use any
pre-trained information, for instance, word2vec and GloVe word representations.
This restriction has constrained the performance of TM compared to deep neural
networks (DNNs) in NLP. To reduce the performance gap, in this paper, we
propose a novel way of using pre-trained word representations for TM. The
approach significantly enhances the TM performance and maintains
interpretability at the same time. We achieve this by extracting semantically
related words from pre-trained word representations as input features to the
TM. Our experiments show that the accuracy of the proposed approach is
significantly higher than the previous BOW-based TM, reaching the level of
DNN-based models.
- Abstract(参考訳): Tsetlin Machine (TM) は命題論理に基づく解釈可能なパターン認識アルゴリズムである。
このアルゴリズムは、感情分析、テキスト分類、Word Sense Disambiguation(WSD)など、多くの自然言語処理(NLP)タスクにおいて競合性能を示した。
ヒューマンレベルの解釈性を得るために、レガシーTMではback-of-words (BOW)のようなBoolean入力機能を採用している。
しかし、BOW表現は、例えば word2vec や GloVe などの事前訓練された情報を使用するのを困難にする。
この制限は、NLPのディープニューラルネットワーク(DNN)と比較してTMの性能を制限している。
性能ギャップを低減するため,本稿では,事前学習した単語表現をTMに使用する方法を提案する。
このアプローチはTM性能を大幅に向上させ、同時に解釈可能性を維持する。
tmの入力特徴として,事前学習した単語表現から意味的に関連した単語を抽出することにより,これを実現する。
実験の結果,提案手法の精度は従来のBOWベースTMよりも有意に高く,DNNベースモデルのレベルに達することがわかった。
関連論文リスト
- Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models [4.807347156077897]
Bit-cipherは、バックプロパゲーションや超高効率次元減少技術の必要性を排除したワード表現システムである。
我々は、古典的な埋め込みによるビット暗号の競合性を評価するために、POSタグと名前付きエンティティ認識(NER)の探索実験を行った。
埋め込み層を暗号埋め込みに置き換えることで、トレーニングプロセスの高速化と最適な最適化を実現する上での暗号の顕著な効率を実証した。
論文 参考訳(メタデータ) (2023-11-18T08:47:35Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Evaluating Pretrained Transformer Models for Entity Linking in
Task-Oriented Dialog [1.4524096882720263]
我々は、テキストの短いフレーズを理解するために、異なる事前訓練されたトランスフォーマーモデル(PTM)を評価する。
PTMのいくつかは、従来の手法と比較してサブパー結果を生成する。
これらの欠点のいくつかは、テキスト類似性タスクのために微調整されたPTMを使用することで対処できる。
論文 参考訳(メタデータ) (2021-12-15T18:20:12Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Comparing Text Representations: A Theory-Driven Approach [2.893558866535708]
我々は、テキストデータセットの特定の特徴に適合するように、計算学習理論から一般的なツールを適応させる。
本稿では,表現とタスクの整合性を評価する手法を提案する。
この方法は、分類に基づくNLPタスクの難易度を校正し、定量的に測定する。
論文 参考訳(メタデータ) (2021-09-15T17:48:19Z) - Human Interpretable AI: Enhancing Tsetlin Machine Stochasticity with
Drop Clause [15.981632159103183]
本稿では,TMの重要な学習要素をランダムにドロップする,Tsetlin Machine (TM) の新たな変種を紹介する。
精度は+2%から+4%,学習速度は2倍から4倍に向上した。
解析可能な機械学習アルゴリズムがピクセルレベルの人間解釈可能な結果を生成するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-05-30T11:29:49Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Learning Variational Word Masks to Improve the Interpretability of
Neural Text Classifiers [21.594361495948316]
モデルの解釈可能性を改善するための新しい取り組みが始まったばかりで、既存の多くのメソッドでは、トレーニングの追加インプットとして事前情報または人的アノテーションが必要である。
本稿では,タスク固有の重要な単語を自動的に学習し,分類に関する無関係な情報を低減し,最終的にモデル予測の解釈可能性を向上させるための変分語マスク(VMASK)手法を提案する。
論文 参考訳(メタデータ) (2020-10-01T20:02:43Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。