論文の概要: Unified Multi-Criteria Chinese Word Segmentation with BERT
- arxiv url: http://arxiv.org/abs/2004.05808v1
- Date: Mon, 13 Apr 2020 07:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:52:23.527964
- Title: Unified Multi-Criteria Chinese Word Segmentation with BERT
- Title(参考訳): BERTを用いた統一中国語単語分割
- Authors: Zhen Ke, Liang Shi, Erli Meng, Bin Wang, Xipeng Qiu, Xuanjing Huang
- Abstract要約: 連続した文字からなる中国語文における単語境界を見つけることを目的としている。
本稿では,統合フレームワークと事前学習言語モデルの優位性を組み合わせて,BERTに基づく統一MCCWSモデルを提案する。
多様な基準を持つ8つのデータセットに対する実験により,本手法がMCCWSの新たな最先端結果が得られることが示された。
- 参考スコア(独自算出の注目度): 82.16846720508748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Criteria Chinese Word Segmentation (MCCWS) aims at finding word
boundaries in a Chinese sentence composed of continuous characters while
multiple segmentation criteria exist. The unified framework has been widely
used in MCCWS and shows its effectiveness. Besides, the pre-trained BERT
language model has been also introduced into the MCCWS task in a multi-task
learning framework. In this paper, we combine the superiority of the unified
framework and pretrained language model, and propose a unified MCCWS model
based on BERT. Moreover, we augment the unified BERT-based MCCWS model with the
bigram features and an auxiliary criterion classification task. Experiments on
eight datasets with diverse criteria demonstrate that our methods could achieve
new state-of-the-art results for MCCWS.
- Abstract(参考訳): mccws(multi-criteria chinese word segmentation)は、複数のセグメンテーション基準が存在する間、連続した文字からなる中国語文の単語境界を見つけることを目的としている。
統一フレームワークはMCCWSで広く使われており、その有効性を示している。
さらに、事前訓練されたBERT言語モデルもマルチタスク学習フレームワークでMCCWSタスクに導入されている。
本稿では,統一フレームワークと事前学習された言語モデルの優位性を融合し,bertに基づく統一mccwsモデルを提案する。
さらに、大まかな特徴と補助的基準分類タスクを備えた統合BERTベースのMCCWSモデルを強化する。
多様な基準を持つ8つのデータセットに対する実験により,本手法がMCCWSの新たな最先端結果が得られることが示された。
関連論文リスト
- Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking [21.799697177859898]
本稿では,RS-LLM (Rich Semantic based LLMs) というコンテキスト内学習手法を用いて,大規模言語モデル (LLM) を基礎モデルとして導入する。
少数の中国固有のリッチなセマンティック構造を導入することで、LCMは、数ショットのCSCタスクにおいてBERTベースのモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-13T12:55:43Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Multi-level Distillation of Semantic Knowledge for Pre-training
Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。
我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。
我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-02T15:23:13Z) - SMTCE: A Social Media Text Classification Evaluation Benchmark and
BERTology Models for Vietnamese [3.0938904602244355]
本稿では,様々なSMTCタスクを対象としたデータセットとモデルの収集として,ソーシャルメディアテキスト分類評価(SMTCE)ベンチマークを紹介する。
我々は,多言語BERTベースモデルと単言語BERTベースモデルの有効性をベンチマークで実装し,解析する。
このベンチマークは、多言語および単言語BERTベースのモデルを客観的に評価し、ベトナム語のBERTologyに関する将来の研究に役立つだろう。
論文 参考訳(メタデータ) (2022-09-21T16:33:46Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Combining Deep Generative Models and Multi-lingual Pretraining for
Semi-supervised Document Classification [49.47925519332164]
半教師付き深層生成モデルと多言語事前学習を組み合わせることで,文書分類タスクのためのパイプラインを形成する。
当社のフレームワークは競争力が高く、複数の言語で低リソース設定の最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-01-26T11:26:14Z) - Pre-training with Meta Learning for Chinese Word Segmentation [44.872788258481755]
本稿では,CWS固有の事前学習モデルMETASEGを提案する。
METASEGは、広く使用されている12のCWSデータセット上で、最先端の新たなパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2020-10-23T10:00:46Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。