論文の概要: LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching
- arxiv url: http://arxiv.org/abs/2102.12671v1
- Date: Thu, 25 Feb 2021 04:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 14:04:10.589714
- Title: LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching
- Title(参考訳): LET:中国語短文マッチングのための言語知識強化グラフ変換器
- Authors: Boer Lyu, Lu Chen, Su Zhu, Kai Yu
- Abstract要約: 外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 29.318730227080675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese short text matching is a fundamental task in natural language
processing. Existing approaches usually take Chinese characters or words as
input tokens. They have two limitations: 1) Some Chinese words are polysemous,
and semantic information is not fully utilized. 2) Some models suffer potential
issues caused by word segmentation. Here we introduce HowNet as an external
knowledge base and propose a Linguistic knowledge Enhanced graph Transformer
(LET) to deal with word ambiguity. Additionally, we adopt the word lattice
graph as input to maintain multi-granularity information. Our model is also
complementary to pre-trained language models. Experimental results on two
Chinese datasets show that our models outperform various typical text matching
approaches. Ablation study also indicates that both semantic information and
multi-granularity information are important for text matching modeling.
- Abstract(参考訳): 中国語の短文マッチングは自然言語処理の基本的なタスクである。
既存のアプローチは通常、漢字や単語を入力トークンとして扱う。
1)中国語の単語は多義語であり、意味情報は十分に活用されていない。
2) 単語分割による潜在的な問題に悩むモデルもある。
本稿では,ハウネットを外部知識ベースとして紹介し,単語曖昧性を扱うための言語知識強化グラフトランスフォーマ(let)を提案する。
さらに,複数粒度情報を維持するために,単語格子グラフを入力として採用する。
私たちのモデルは、事前学習された言語モデルも補完します。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
また,テキストマッチングモデルにおいて,意味情報と多粒度情報の両方が重要であることを示す。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models [42.75756994523378]
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-20T06:20:03Z) - CLOWER: A Pre-trained Language Model with Contrastive Learning over Word
and Character Representations [18.780841483220986]
事前学習型言語モデル(PLM)は、自然言語理解における多くの下流タスクにおいて、顕著なパフォーマンス向上を実現している。
現在のほとんどのモデルは漢字を入力として使用しており、中国語の単語に含まれる意味情報をエンコードすることができない。
本稿では,コントラッシブ・ラーニング・オーバーワード(Contrastive Learning Over Word)とチャラクタ表現(character representations)を採用した,シンプルで効果的なPLM CLOWERを提案する。
論文 参考訳(メタデータ) (2022-08-23T09:52:34Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。