論文の概要: 2kenize: Tying Subword Sequences for Chinese Script Conversion
- arxiv url: http://arxiv.org/abs/2005.03375v1
- Date: Thu, 7 May 2020 10:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:15:10.681446
- Title: 2kenize: Tying Subword Sequences for Chinese Script Conversion
- Title(参考訳): 2kenize:中国語スクリプト変換のためのサブワードシーケンスのタイピング
- Authors: Pranav A, Isabelle Augenstein
- Abstract要約: 本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
- 参考スコア(独自算出の注目度): 54.33749520569979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simplified Chinese to Traditional Chinese character conversion is a common
preprocessing step in Chinese NLP. Despite this, current approaches have poor
performance because they do not take into account that a simplified Chinese
character can correspond to multiple traditional characters. Here, we propose a
model that can disambiguate between mappings and convert between the two
scripts. The model is based on subword segmentation, two language models, as
well as a method for mapping between subword sequences. We further construct
benchmark datasets for topic classification and script conversion. Our proposed
method outperforms previous Chinese Character conversion approaches by 6 points
in accuracy. These results are further confirmed in a downstream application,
where 2kenize is used to convert pretraining dataset for topic classification.
An error analysis reveals that our method's particular strengths are in dealing
with code-mixing and named entities.
- Abstract(参考訳): 簡素な中国語から伝統的な漢字への変換は、中国語のNLPにおいて一般的な前処理ステップである。
それにもかかわらず、簡体字が複数の伝統的な文字に対応できることを考慮していないため、現在のアプローチは性能が劣っている。
本稿では,2つのスクリプト間のマッピングと変換を曖昧にできるモデルを提案する。
このモデルは、サブワードセグメンテーションと2つの言語モデル、およびサブワードシーケンス間のマッピング方法に基づいている。
さらに,トピック分類とスクリプト変換のためのベンチマークデータセットを構築する。
提案手法は,従来の漢字変換手法を6点精度で上回っている。
これらの結果は、トピック分類のために事前トレーニングデータセットを変換するために2kenizeを使用する下流アプリケーションでさらに確認される。
エラー解析により,提案手法の強みはコードミキシングや名前付きエンティティを扱うことにあることが明らかとなった。
関連論文リスト
- Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - CharSS: Character-Level Transformer Model for Sanskrit Word Segmentation [39.08623113730563]
インド語のサブワードトークンは本質的に意味を持ち、それらを分離することでNLPタスクを強化することができる。
我々はサンスクリット語(CharSS)の文字レベル変換モデルを利用する新しい手法を提案する。
提案手法の性能を既存手法と比較するために,3つのベンチマークデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-07-08T18:50:13Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2021-07-12T13:39:06Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Lexicon-constrained Copying Network for Chinese Abstractive
Summarization [0.0]
コピー機構により、シーケンス・ツー・シーケンス・モデルは入力から単語を選択し、直接出力に入力することができる。
中国の抽象的要約のための既存のモデルのほとんどは文字コピーしか実行できない。
本稿では,メモリとデコーダの両方の多重粒度をモデル化する辞書拘束型複写ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-16T06:59:34Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。