論文の概要: Moto: Enhancing Embedding with Multiple Joint Factors for Chinese Text
Classification
- arxiv url: http://arxiv.org/abs/2212.08105v1
- Date: Fri, 9 Dec 2022 15:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 03:03:22.016320
- Title: Moto: Enhancing Embedding with Multiple Joint Factors for Chinese Text
Classification
- Title(参考訳): Moto: 中国語テキスト分類のための複数要素による埋め込みの強化
- Authors: Xunzhu Tang and Rujie Zhu and Tiezhu Sun and Shi Wang
- Abstract要約: 我々は、textbfMultiple Jtextbfoint Factextbftorsを用いたMoto: Enhancing Embeddingという新しいモデルを提案する。
具体的には,4レベル情報をより効果的に融合させることにより,有用部品を蒸留するアテンション機構を設計する。
- 参考スコア(独自算出の注目度): 3.6218114438487086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, language representation techniques have achieved great performances
in text classification. However, most existing representation models are
specifically designed for English materials, which may fail in Chinese because
of the huge difference between these two languages. Actually, few existing
methods for Chinese text classification process texts at a single level.
However, as a special kind of hieroglyphics, radicals of Chinese characters are
good semantic carriers. In addition, Pinyin codes carry the semantic of tones,
and Wubi reflects the stroke structure information, \textit{etc}.
Unfortunately, previous researches neglected to find an effective way to
distill the useful parts of these four factors and to fuse them. In our works,
we propose a novel model called Moto: Enhancing Embedding with
\textbf{M}ultiple J\textbf{o}int Fac\textbf{to}rs. Specifically, we design an
attention mechanism to distill the useful parts by fusing the four-level
information above more effectively. We conduct extensive experiments on four
popular tasks. The empirical results show that our Moto achieves SOTA 0.8316
($F_1$-score, 2.11\% improvement) on Chinese news titles, 96.38 (1.24\%
improvement) on Fudan Corpus and 0.9633 (3.26\% improvement) on THUCNews.
- Abstract(参考訳): 近年,言語表現技術はテキスト分類において大きな成果を上げている。
しかし、既存の表現モデルは英語の資料用に特別に設計されており、この2つの言語に大きな違いがあるため、中国語では失敗する可能性がある。
実際には、中国語のテキスト分類処理を単一レベルで行う方法はほとんどない。
しかし、特殊なヒエログリフィクスとして、漢字のラディカルはセマンティックキャリアとして優れている。
さらに、Pinyin符号はトーンの意味を持ち、Wubi はストローク構造情報である \textit{etc} を反映する。
残念なことに、以前の研究ではこれらの4つの因子の有用な部分を蒸留し、それらを融合させる効果的な方法を見つけられなかった。
本稿では,Moto: Enhancing Embedding with \textbf{M}ultiple J\textbf{o}int Fac\textbf{to}rsを提案する。
具体的には、上述の4レベル情報をより効果的に融合することにより、有用な部品を蒸留するための注意機構を設計する。
我々は4つの一般的なタスクを広範囲に実験する。
その結果、中国のニュースタイトルではSOTA 0.8316(F_1$-score, 2.11\%改善)、ふだんコーパスでは96.38(1.24\%改善)、THUCNewsでは0.9633(3.26\%改善)を達成した。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models [42.75756994523378]
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-20T06:20:03Z) - Benchmarking Chinese Text Recognition: Datasets, Baselines, and an
Empirical Study [25.609450020149637]
既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。
公開のコンペ、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、それらをシーン、Web、ドキュメント、手書きデータセットの4つのカテゴリに分けます。
実験結果を解析することにより、中国語のシナリオにおいて、英語のテキストを認識するための最先端のベースラインがうまく機能しないことを驚くほど観察する。
論文 参考訳(メタデータ) (2021-12-30T15:30:52Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。