論文の概要: A New Clustering neural network for Chinese word segmentation
- arxiv url: http://arxiv.org/abs/2002.07458v1
- Date: Tue, 18 Feb 2020 09:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 19:59:02.472830
- Title: A New Clustering neural network for Chinese word segmentation
- Title(参考訳): 中国語単語分割のための新しいクラスタリングニューラルネットワーク
- Authors: Yuze Zhao
- Abstract要約: このモデルでは、トレーニングデータセットでFスコアの98%(OOVを含まない)、Fスコアの85%から95%(OOVを含まない)に達することができる。
誤り解析は、OOVワードが性能を大幅に低下させることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article I proposed a new model to achieve Chinese word
segmentation(CWS),which may have the potentiality to apply in other domains in
the future.It is a new thinking in CWS compared to previous works,to consider
it as a clustering problem instead of a labeling problem.In this model,LSTM and
self attention structures are used to collect context also sentence level
features in every layer,and after several layers,a clustering model is applied
to split characters into groups,which are the final segmentation results.I call
this model CLNN.This algorithm can reach 98 percent of F score (without OOV
words) and 85 percent to 95 percent F score (with OOV words) in training data
sets.Error analyses shows that OOV words will greatly reduce performances,which
needs a deeper research in the future.
- Abstract(参考訳): In this article I proposed a new model to achieve Chinese word segmentation(CWS),which may have the potentiality to apply in other domains in the future.It is a new thinking in CWS compared to previous works,to consider it as a clustering problem instead of a labeling problem.In this model,LSTM and self attention structures are used to collect context also sentence level features in every layer,and after several layers,a clustering model is applied to split characters into groups,which are the final segmentation results.I call this model CLNN.This algorithm can reach 98 percent of F score (without OOV words) and 85 percent to 95 percent F score (with OOV words) in training data sets.Error analyses shows that OOV words will greatly reduce performances,which needs a deeper research in the future.
関連論文リスト
- Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - Nearest Neighbor Zero-Shot Inference [68.56747574377215]
kNN-Promptは、言語モデル(LM)を用いたゼロショット推論のためのk-nearest neighbor (kNN)検索拡張手法である。
ファジィ動詞化器は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクのスパースkNN分布を利用する。
実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。
論文 参考訳(メタデータ) (2022-05-27T07:00:59Z) - Chinese Word Segmentation with Heterogeneous Graph Neural Network [8.569804490994219]
我々はHGNSegという名前の中国語単語分割を改善するためのフレームワークを提案する。
事前訓練された言語モデルと異種グラフニューラルネットワークでマルチレベル外部情報を利用する。
ドメイン横断シナリオでは,OoV(out-of-vocabulary)問題を緩和する強力な能力も示している。
論文 参考訳(メタデータ) (2022-01-22T06:25:56Z) - Selective Pseudo-label Clustering [42.19193184852487]
ディープニューラルネットワーク(DNN)は、高次元データをクラスタリングする困難なタスクに対処する手段を提供する。
DNNのトレーニングに最も自信のある擬似ラベルのみを用いる選択的擬似ラベルクラスタリングを提案する。
新しいアプローチは、3つの人気のある画像データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-22T13:56:53Z) - Learning Hierarchical Graph Neural Networks for Image Clustering [81.5841862489509]
本稿では,画像の集合を未知の個数にクラスタリングする方法を学ぶ階層型グラフニューラルネットワーク(GNN)モデルを提案する。
我々の階層的なGNNは、階層の各レベルで予測される連結コンポーネントをマージして、次のレベルで新しいグラフを形成するために、新しいアプローチを用いています。
論文 参考訳(メタデータ) (2021-07-03T01:28:42Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。