論文の概要: Coupling Distant Annotation and Adversarial Training for Cross-Domain
Chinese Word Segmentation
- arxiv url: http://arxiv.org/abs/2007.08186v2
- Date: Wed, 2 Sep 2020 07:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 22:05:55.554371
- Title: Coupling Distant Annotation and Adversarial Training for Cross-Domain
Chinese Word Segmentation
- Title(参考訳): 中国語単語分割における距離アノテーションと対訳訓練の結合
- Authors: Ning Ding, Dingkun Long, Guangwei Xu, Muhua Zhu, Pengjun Xie, Xiaobin
Wang, Hai-Tao Zheng
- Abstract要約: 本論文は,中国語の単語セグメント化のための遠隔アノテーションと逆行訓練を併用することを提案する。
遠隔アノテーションのために、ターゲットドメインからの監視や事前定義された辞書を必要としない自動遠隔アノテーション機構を設計する。
逆行訓練では、音源領域情報の雑音低減と最大限の活用を行うための文レベルの訓練手法を開発する。
- 参考スコア(独自算出の注目度): 40.27961925319402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully supervised neural approaches have achieved significant progress in the
task of Chinese word segmentation (CWS). Nevertheless, the performance of
supervised models tends to drop dramatically when they are applied to
out-of-domain data. Performance degradation is caused by the distribution gap
across domains and the out of vocabulary (OOV) problem. In order to
simultaneously alleviate these two issues, this paper proposes to couple
distant annotation and adversarial training for cross-domain CWS. For distant
annotation, we rethink the essence of "Chinese words" and design an automatic
distant annotation mechanism that does not need any supervision or pre-defined
dictionaries from the target domain. The approach could effectively explore
domain-specific words and distantly annotate the raw texts for the target
domain. For adversarial training, we develop a sentence-level training
procedure to perform noise reduction and maximum utilization of the source
domain information. Experiments on multiple real-world datasets across various
domains show the superiority and robustness of our model, significantly
outperforming previous state-of-the-art cross-domain CWS methods.
- Abstract(参考訳): 完全教師付きニューラルネットワークは中国語単語分割(CWS)のタスクにおいて大きな進歩を遂げている。
それでも、教師付きモデルの性能はドメイン外データに適用されると劇的に低下する傾向にある。
性能劣化はドメイン間の分配ギャップと語彙外問題(OOV)によって引き起こされる。
本稿では,これら2つの問題を同時に緩和するために,クロスドメインCWSのための遠隔アノテーションと対角的トレーニングを提案する。
遠隔アノテーションについては,「中国語単語」の本質を再考し,対象領域からの監視や予め定義された辞書を必要としない自動遠隔アノテーション機構を設計する。
このアプローチは、ドメイン固有の単語を効果的に探索し、ターゲットドメインの原文を遠方から注釈付けする。
逆行訓練では,音源領域情報の雑音低減と最大活用を行う文レベルの訓練手法を開発する。
様々な領域にまたがる複数の実世界のデータセットの実験は、我々のモデルの優越性と堅牢性を示し、従来の最先端のクロスドメインCWS法よりも著しく優れている。
関連論文リスト
- Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z) - Contextual-Relation Consistent Domain Adaptation for Semantic
Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。
グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。
実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文 参考訳(メタデータ) (2020-07-05T19:00:46Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Contradistinguisher: A Vapnik's Imperative to Unsupervised Domain
Adaptation [7.538482310185133]
本研究では,コントラスト特徴を学習するContradistinguisherと呼ばれるモデルを提案する。
Office-31とVisDA-2017における最先端のデータセットを、シングルソースとマルチソースの両方で実現しています。
論文 参考訳(メタデータ) (2020-05-25T19:54:38Z) - Vocabulary Adaptation for Distant Domain Adaptation in Neural Machine
Translation [14.390932594872233]
語彙のミスマッチにより、ドメイン間のドメイン適応を効果的に行うことはできない。
本稿では,効果的な微調整法である語彙適応法を提案する。
本手法は,En-JaおよびDe-En翻訳における従来の微調整性能を3.86点,3.28点改善する。
論文 参考訳(メタデータ) (2020-04-30T14:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。