論文の概要: Scalable Multi-phase Word Embedding Using Conjunctive Propositional Clauses
- arxiv url: http://arxiv.org/abs/2501.19018v2
- Date: Mon, 03 Feb 2025 10:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:35.566711
- Title: Scalable Multi-phase Word Embedding Using Conjunctive Propositional Clauses
- Title(参考訳): 共役命題句を用いたスケーラブルな多相単語埋め込み
- Authors: Ahmed K. Kadhim, Lei Jiao, Rishad Shafik, Ole-Christoffer Granmo, Bimal Bhattarai,
- Abstract要約: 入力シーケンスの文脈埋め込みを発見するために,2相学習を取り入れた新しい手法を提案する。
この技術はスケーラブルなモデルの設計を促進するだけでなく、解釈可能性も維持する。
実験の結果,提案手法は従来の手法と比較して競争性能が高いことがわかった。
- 参考スコア(独自算出の注目度): 14.088007380798635
- License:
- Abstract: The Tsetlin Machine (TM) architecture has recently demonstrated effectiveness in Machine Learning (ML), particularly within Natural Language Processing (NLP). It has been utilized to construct word embedding using conjunctive propositional clauses, thereby significantly enhancing our understanding and interpretation of machine-derived decisions. The previous approach performed the word embedding over a sequence of input words to consolidate the information into a cohesive and unified representation. However, that approach encounters scalability challenges as the input size increases. In this study, we introduce a novel approach incorporating two-phase training to discover contextual embeddings of input sequences. Specifically, this method encapsulates the knowledge for each input word within the dataset's vocabulary, subsequently constructing embeddings for a sequence of input words utilizing the extracted knowledge. This technique not only facilitates the design of a scalable model but also preserves interpretability. Our experimental findings revealed that the proposed method yields competitive performance compared to the previous approaches, demonstrating promising results in contrast to human-generated benchmarks. Furthermore, we applied the proposed approach to sentiment analysis on the IMDB dataset, where the TM embedding and the TM classifier, along with other interpretable classifiers, offered a transparent end-to-end solution with competitive performance.
- Abstract(参考訳): Tsetlin Machine(TM)アーキテクチャは、最近機械学習(ML)、特に自然言語処理(NLP)において効果を実証した。
共役命題節を用いた単語埋め込みの構築に利用され,機械による決定の理解と解釈が大幅に向上した。
従来の手法では、単語を一連の入力語に埋め込んで、情報を結合的で統一された表現に集約する。
しかし、入力サイズが大きくなるにつれて、このアプローチはスケーラビリティの課題に直面します。
本研究では,入力シーケンスの文脈埋め込みを発見するために,二相学習を取り入れた新しい手法を提案する。
具体的には、データセットの語彙内の各入力語に対する知識をカプセル化し、その後、抽出した知識を利用した入力語列への埋め込みを構築する。
この技術はスケーラブルなモデルの設計を促進するだけでなく、解釈可能性も維持する。
実験の結果,提案手法は従来の手法と比較して競争性能が向上し,人為的ベンチマークとは対照的に有望な結果が得られた。
さらに,提案手法をIMDBデータセット上での感情分析に適用し,TM埋め込みとTM分類器,その他の解釈可能な分類器とともに,競合性能を備えた透明なエンドツーエンドソリューションを提供した。
関連論文リスト
- Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models [4.807347156077897]
Bit-cipherは、バックプロパゲーションや超高効率次元減少技術の必要性を排除したワード表現システムである。
我々は、古典的な埋め込みによるビット暗号の競合性を評価するために、POSタグと名前付きエンティティ認識(NER)の探索実験を行った。
埋め込み層を暗号埋め込みに置き換えることで、トレーニングプロセスの高速化と最適な最適化を実現する上での暗号の顕著な効率を実証した。
論文 参考訳(メタデータ) (2023-11-18T08:47:35Z) - This Reads Like That: Deep Learning for Interpretable Natural Language
Processing [9.002523763052848]
プロトタイプ学習は、本質的に解釈可能な決定のために設計された一般的な機械学習手法である。
本稿では,事前学習文の埋め込みの情報的次元に着目し,類似度を高める学習重み付き類似度尺度を提案する。
プロトタイプと入力文の両方から予測関連単語を抽出するポストホックな説明可能性機構を提案する。
論文 参考訳(メタデータ) (2023-10-25T21:18:35Z) - Topic-DPR: Topic-based Prompts for Dense Passage Retrieval [6.265789210037749]
トピックベースのプロンプトを用いた高密度経路探索モデルであるTopic-DPRを提案する。
本稿では, 半構造化データを利用して高密度検索効率を向上させる, 新規な正負サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T13:45:24Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Cross-lingual Word Sense Disambiguation using mBERT Embeddings with
Syntactic Dependencies [0.0]
言語間の単語感覚の曖昧さ (WSD) は、与えられた文脈にまたがるあいまいな単語の曖昧さに対処する。
BERT埋め込みモデルは、単語の文脈情報に有効であることが証明されている。
このプロジェクトは、構文情報がどのようにBERT埋め込みに追加され、セマンティクスと構文を組み込んだ単語埋め込みの両方をもたらすかを調査します。
論文 参考訳(メタデータ) (2020-12-09T20:22:11Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。