論文の概要: Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure
- arxiv url: http://arxiv.org/abs/2007.02342v1
- Date: Sun, 5 Jul 2020 13:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 07:44:40.780619
- Title: Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure
- Title(参考訳): 教師なし連想尺度による中国語セグメンテーションフリー単語埋め込みの改善
- Authors: Yifan Zhang, Maohua Wang, Yongjian Huang, Qianrong Gu
- Abstract要約: 時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
- 参考スコア(独自算出の注目度): 3.9435648520559177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on segmentation-free word embedding(sembei) developed a new
pipeline of word embedding for unsegmentated language while avoiding
segmentation as a preprocessing step. However, too many noisy n-grams existing
in the embedding vocabulary that do not have strong association strength
between characters would limit the quality of learned word embedding. To deal
with this problem, a new version of segmentation-free word embedding model is
proposed by collecting n-grams vocabulary via a novel unsupervised association
measure called pointwise association with times information(PATI). Comparing
with the commonly used n-gram filtering method like frequency used in sembei
and pointwise mutual information(PMI), the proposed method leverages more
latent information from the corpus and thus is able to collect more valid
n-grams that have stronger cohesion as embedding targets in unsegmented
language data, such as Chinese texts. Further experiments on Chinese SNS data
show that the proposed model improves performance of word embedding in
downstream tasks.
- Abstract(参考訳): セグメンテーションフリーワード埋め込み(sembei)に関する最近の研究は、セグメンテーションを前処理ステップとして避けつつ、セグメンテーションなし言語のための新しいパイプラインを開発した。
しかし、文字間の強い結合力を持たない組込み語彙に存在するノイズの多いn-gramが多すぎると、学習された単語組込みの品質が制限される。
この問題に対処するために,n-grams語彙をtimes information(pati)のpointwise associationと呼ばれる新しい非教師なしアソシエーション尺度を用いて収集し,セグメンテーションフリーな単語埋め込みモデルの新バージョンを提案する。
センベイにおける周波数やポイントワイド相互情報(PMI)などの一般的なn-gramフィルタリング手法と比較して,提案手法はコーパスからより潜時的な情報を利用して,中国語テキストなどの未分類言語データへの埋め込みターゲットとして,より強い凝集度を持つn-gramを収集することができる。
中国SNSデータに関するさらなる実験により、提案手法により、下流タスクにおける単語埋め込みの性能が向上することが示された。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to
Corpus Exploration [25.159601117722936]
我々は,BERTがより強力なフレーズ埋め込みを生成可能な,対照的な微調整対象を提案する。
提案手法は,パラフレーズ生成モデルを用いて自動生成される多種多様なパラフレーズのデータセットに依存する。
ケーススタディでは、フレーズベースのニューラルトピックモデルを構築するために、Phrase-BERT埋め込みを単純なオートエンコーダと簡単に統合できることが示されている。
論文 参考訳(メタデータ) (2021-09-13T20:31:57Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention [19.520840812910357]
シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。
既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。
本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。
論文 参考訳(メタデータ) (2020-12-30T08:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。