論文の概要: Chinese Word Segmentation with Heterogeneous Graph Neural Network
- arxiv url: http://arxiv.org/abs/2201.08975v1
- Date: Sat, 22 Jan 2022 06:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 15:22:29.836450
- Title: Chinese Word Segmentation with Heterogeneous Graph Neural Network
- Title(参考訳): 異種グラフニューラルネットワークを用いた中国語単語分割
- Authors: Xuemei Tang, Jun Wang, Qi Su
- Abstract要約: 我々はHGNSegという名前の中国語単語分割を改善するためのフレームワークを提案する。
事前訓練された言語モデルと異種グラフニューラルネットワークでマルチレベル外部情報を利用する。
ドメイン横断シナリオでは,OoV(out-of-vocabulary)問題を緩和する強力な能力も示している。
- 参考スコア(独自算出の注目度): 8.569804490994219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep learning has achieved significant success in the
Chinese word segmentation (CWS) task. Most of these methods improve the
performance of CWS by leveraging external information, e.g., words, sub-words,
syntax. However, existing approaches fail to effectively integrate the
multi-level linguistic information and also ignore the structural feature of
the external information. Therefore, in this paper, we proposed a framework to
improve CWS, named HGNSeg. It exploits multi-level external information
sufficiently with the pre-trained language model and heterogeneous graph neural
network. The experimental results on six benchmark datasets (e.g., Bakeoff
2005, Bakeoff 2008) validate that our approach can effectively improve the
performance of Chinese word segmentation. Importantly, in cross-domain
scenarios, our method also shows a strong ability to alleviate the
out-of-vocabulary (OOV) problem.
- Abstract(参考訳): 近年,中国語単語セグメンテーション(CWS)タスクにおいて,ディープラーニングが大きな成功を収めている。
これらの手法の多くは、単語、サブワード、構文などの外部情報を活用することにより、CWSの性能を向上させる。
しかし,既存の手法では,多水準言語情報を効果的に統合することはできず,外部情報の構造的特徴も無視する。
そこで本稿では,HGNSegというCWSを改善するためのフレームワークを提案する。
事前学習された言語モデルとヘテロジニアスグラフニューラルネットワークで、多レベル外部情報を十分に活用する。
6つのベンチマークデータセット(例えば、Bakeoff 2005, Bakeoff 2008)の実験結果は、我々のアプローチが中国語の単語セグメンテーションの性能を効果的に改善できることを示す。
重要なことは、ドメイン横断シナリオにおいて、我々の手法はOoV(out-of-vocabulary)問題を緩和する強力な能力を示す。
関連論文リスト
- Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Improving Context Modeling in Neural Topic Segmentation [18.92944038749279]
階層型アテンションBiLSTMネットワークに基づくセグメンタを改良し、コンテキストをモデル化する。
最適化されたセグメンタは、3つのデータセットでトレーニングとテストを行った場合、SOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-10-07T03:40:49Z) - Coupling Distant Annotation and Adversarial Training for Cross-Domain
Chinese Word Segmentation [40.27961925319402]
本論文は,中国語の単語セグメント化のための遠隔アノテーションと逆行訓練を併用することを提案する。
遠隔アノテーションのために、ターゲットドメインからの監視や事前定義された辞書を必要としない自動遠隔アノテーション機構を設計する。
逆行訓練では、音源領域情報の雑音低減と最大限の活用を行うための文レベルの訓練手法を開発する。
論文 参考訳(メタデータ) (2020-07-16T08:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。