論文の概要: More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models
- arxiv url: http://arxiv.org/abs/2108.10755v1
- Date: Tue, 24 Aug 2021 14:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 15:40:28.827755
- Title: More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models
- Title(参考訳): 単語を超えて:潜在ディリクレ割当モデルのコロケーショントークン化
- Authors: Jin Cheevaprawatdomrong, Alexandra Schofield, Attapol T. Rutherford
- Abstract要約: モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
- 参考スコア(独自算出の注目度): 71.42030830910227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, Latent Dirichlet Allocation (LDA) ingests words in a
collection of documents to discover their latent topics using word-document
co-occurrences. However, it is unclear how to achieve the best results for
languages without marked word boundaries such as Chinese and Thai. Here, we
explore the use of Pearson's chi-squared test, t-statistics, and Word Pair
Encoding (WPE) to produce tokens as input to the LDA model. The Chi-squared, t,
and WPE tokenizers are trained on Wikipedia text to look for words that should
be grouped together, such as compound nouns, proper nouns, and complex event
verbs. We propose a new metric for measuring the clustering quality in settings
where the vocabularies of the models differ. Based on this metric and other
established metrics, we show that topics trained with merged tokens result in
topic keys that are clearer, more coherent, and more effective at
distinguishing topics than those unmerged models.
- Abstract(参考訳): 伝統的に、LDA (Latent Dirichlet Allocation) は文書の集合の中で単語を取り込み、単語文書の共起を使ってその潜在トピックを発見する。
しかし、中国語やタイ語などの単語境界をマークせずに、言語で最高の結果を達成する方法は不明である。
本稿では,PearsonのChi-squared test, t-statistics, Word Pair Encoding (WPE)を用いて,LDAモデルの入力としてトークンを生成する。
Chi-squared、t、WPEトークンーはウィキペディアのテキストで訓練され、複合名詞、固有名詞、複合イベント動詞などのグループ化すべき単語を探す。
本稿では,モデルの語彙が異なる設定において,クラスタリング品質を測定するための新しい指標を提案する。
このメトリックやその他の確立されたメトリクスに基づいて、マージトークンでトレーニングされたトピックは、これらの未マージモデルよりも明確で一貫性があり、トピックの識別に効果的であるトピックキーを生成する。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。