論文の概要: Searching for Optimal Subword Tokenization in Cross-domain NER
- arxiv url: http://arxiv.org/abs/2206.03352v1
- Date: Tue, 7 Jun 2022 14:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:52:12.469734
- Title: Searching for Optimal Subword Tokenization in Cross-domain NER
- Title(参考訳): クロスドメインNERにおける最適サブワードトークン化の探索
- Authors: Ruotian Ma, Yiding Tan, Xin Zhou, Xuanting Chen, Di Liang, Sirui Wang,
Wei Wu, Tao Gui, Qi Zhang
- Abstract要約: 本研究では,NERにおける単語レベルの分散シフトを入力として,サブワードレベルのソリューションであるX-Pieceを導入する。
具体的には、ソースドメインの入力語を再学習し、ターゲットサブワード分布にアプローチし、最適な輸送問題として定式化して解決する。
4つのベンチマークNERデータセットに対して,BERT-taggerに基づく提案手法の有効性を示す実験結果を得た。
- 参考スコア(独自算出の注目度): 19.921518007163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Input distribution shift is one of the vital problems in unsupervised domain
adaptation (UDA). The most popular UDA approaches focus on domain-invariant
representation learning, trying to align the features from different domains
into similar feature distributions. However, these approaches ignore the direct
alignment of input word distributions between domains, which is a vital factor
in word-level classification tasks such as cross-domain NER. In this work, we
shed new light on cross-domain NER by introducing a subword-level solution,
X-Piece, for input word-level distribution shift in NER. Specifically, we
re-tokenize the input words of the source domain to approach the target subword
distribution, which is formulated and solved as an optimal transport problem.
As this approach focuses on the input level, it can also be combined with
previous DIRL methods for further improvement. Experimental results show the
effectiveness of the proposed method based on BERT-tagger on four benchmark NER
datasets. Also, the proposed method is proved to benefit DIRL methods such as
DANN.
- Abstract(参考訳): 入力分布シフトは、教師なし領域適応(UDA)において重要な問題の一つである。
最も人気のあるUDAアプローチはドメイン不変表現学習であり、異なるドメインからの機能を同様の機能分布に整合させようとしている。
しかし、これらのアプローチはドメイン間の入力語分布の直接的アライメントを無視しており、これはクロスドメインnerのような単語レベルの分類タスクにおいて重要な要素である。
本研究では,NERの入力語レベル分布シフトのためのサブワードレベルのソリューションであるX-Pieceを導入することで,ドメイン間NERに新たな光を当てる。
具体的には、ソースドメインの入力語を再学習し、ターゲットサブワード分布にアプローチし、最適な輸送問題として定式化して解決する。
このアプローチは入力レベルにフォーカスしているので、さらなる改善のために以前のdirlメソッドと組み合わせることもできる。
4つのベンチマークNERデータセットに対して,BERT-taggerに基づく提案手法の有効性を示す実験結果を得た。
また,提案手法はDANNなどのDIRL法に有効であることが証明された。
関連論文リスト
- Joint Attention-Driven Domain Fusion and Noise-Tolerant Learning for
Multi-Source Domain Adaptation [2.734665397040629]
マルチソースUnsupervised Domain Adaptationはラベル付きデータを持つ複数のソースドメインからラベル付きターゲットドメインに知識を転送する。
異なるドメインとターゲットドメイン内のノイズの多い擬似ラベル間の分散の相違は、どちらもパフォーマンスのボトルネックにつながる。
本稿では,意識駆動型ドメイン融合(ADNT)と雑音耐性学習(ADNT)を統合し,上記の2つの問題に対処するアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-05T01:08:41Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - Re-energizing Domain Discriminator with Sample Relabeling for
Adversarial Domain Adaptation [88.86865069583149]
Unsupervised Domain Adapt (UDA)メソッドは、ドメインの競合トレーニングを利用して、機能を調整してドメインのギャップを減らす。
本研究では,Re-enforceable Adversarial Domain Adaptation (RADA) と呼ばれる効率的な最適化戦略を提案する。
RADAは、動的ドメインラベルを使用して、トレーニング中にドメイン識別器を再活性化することを目指しています。
論文 参考訳(メタデータ) (2021-03-22T08:32:55Z) - CrossNER: Evaluating Cross-Domain Named Entity Recognition [47.9831214875796]
ドメイン間のエンティティ認識モデルは、ターゲットドメインにおけるNERサンプルの不足問題に対処することができる。
既存のNERベンチマークのほとんどはドメイン特化エンティティタイプを持たないか、特定のドメインにフォーカスしていないため、クロスドメイン評価の効率が低下する。
CrossNER(クロスドメインNERデータセット)は、5つの異なるドメインにまたがるNERデータのフルラベルコレクションで、異なるドメインのための専門エンティティカテゴリがあります。
論文 参考訳(メタデータ) (2020-12-08T11:31:55Z) - Effective Label Propagation for Discriminative Semi-Supervised Domain
Adaptation [76.41664929948607]
半教師付き領域適応(SSDA)法は,大規模な画像分類タスクにおいて大きな可能性を示している。
本稿では、ドメイン間およびドメイン内セマンティック情報を効果的に伝達することにより、この問題に対処する新しい効果的な方法を提案する。
ソースコードと事前訓練されたモデルも間もなくリリースされる予定です。
論文 参考訳(メタデータ) (2020-12-04T14:28:19Z) - Domain Adaptation in LiDAR Semantic Segmentation by Aligning Class
Distributions [9.581605678437032]
この研究は、LiDARセマンティックセグメンテーションモデルに対する教師なしドメイン適応の問題に対処する。
我々のアプローチは、現在の最先端のアプローチの上に新しいアイデアを結合し、新しい最先端の成果をもたらす。
論文 参考訳(メタデータ) (2020-10-23T08:52:15Z) - Discriminative Cross-Domain Feature Learning for Partial Domain
Adaptation [70.45936509510528]
部分的なドメイン適応は、より大きく多様なソースドメインからの知識を、より少ないクラス数でより小さなターゲットドメインに適応させることを目的としています。
ドメイン適応の最近の実践は、ターゲットドメインの擬似ラベルを組み込むことで、効果的な特徴を抽出する。
ターゲットデータを少数のソースデータのみにアライメントすることが不可欠である。
論文 参考訳(メタデータ) (2020-08-26T03:18:53Z) - Unsupervised Cross-domain Image Classification by Distance Metric Guided
Feature Alignment [11.74643883335152]
教師なしドメイン適応は、ソースドメインからターゲットドメインに知識を転送する有望な道である。
本稿では,距離メトリックガイド機能アライメント(MetFA)を提案する。
我々のモデルは、クラス分布アライメントを統合して、ソースドメインからターゲットドメインにセマンティック知識を転送します。
論文 参考訳(メタデータ) (2020-08-19T13:36:57Z) - Simultaneous Semantic Alignment Network for Heterogeneous Domain
Adaptation [67.37606333193357]
本稿では,カテゴリ間の相関を同時に利用し,各カテゴリ毎のセントロイドを整列させるために,aSimultaneous Semantic Alignment Network (SSAN)を提案する。
対象の擬似ラベルを利用することで、各カテゴリの特徴表現を整列させるために、ロバストな三重項中心のアライメント機構を明示的に適用する。
テキスト・ツー・イメージ、画像・画像・テキスト・ツー・テキストにわたる様々なHDAタスクの実験は、最先端のHDA手法に対するSSANの優位性を検証することに成功した。
論文 参考訳(メタデータ) (2020-08-04T16:20:37Z) - Towards Fair Cross-Domain Adaptation via Generative Learning [50.76694500782927]
ドメイン適応(DA)は、よくラベル付けされたソースドメイン上でトレーニングされたモデルを、異なる分散に横たわる未ラベルのターゲットドメインに適応することを目的としています。
本研究では,新規な生成的Few-shot Cross-Domain Adaptation (GFCA) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-03-04T23:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。