論文の概要: Data Augmentation for Cross-Domain Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2109.01758v1
- Date: Sat, 4 Sep 2021 00:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:46:03.281281
- Title: Data Augmentation for Cross-Domain Named Entity Recognition
- Title(参考訳): クロスドメイン名前付きエンティティ認識のためのデータ拡張
- Authors: Shuguang Chen, Gustavo Aguilar, Leonardo Neves and Thamar Solorio
- Abstract要約: 名前付きエンティティ認識タスクのためのドメイン間データ拡張について検討する。
本稿では,データ表現を高リソースから低リソース領域に変換する新しいニューラルアーキテクチャを提案する。
本研究では,低リソース領域の表現にデータを変換することで,高リソース領域のデータのみを使用することによる大幅な改善を実現することを示す。
- 参考スコア(独自算出の注目度): 22.66649873447105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current work in named entity recognition (NER) shows that data augmentation
techniques can produce more robust models. However, most existing techniques
focus on augmenting in-domain data in low-resource scenarios where annotated
data is quite limited. In contrast, we study cross-domain data augmentation for
the NER task. We investigate the possibility of leveraging data from
high-resource domains by projecting it into the low-resource domains.
Specifically, we propose a novel neural architecture to transform the data
representation from a high-resource to a low-resource domain by learning the
patterns (e.g. style, noise, abbreviations, etc.) in the text that
differentiate them and a shared feature space where both domains are aligned.
We experiment with diverse datasets and show that transforming the data to the
low-resource domain representation achieves significant improvements over only
using data from high-resource domains.
- Abstract(参考訳): 名前付きエンティティ認識(NER)における現在の研究は、データ拡張技術がより堅牢なモデルを生成することを示している。
しかし、既存の技術のほとんどは、アノテーション付きデータが非常に限られている低リソースシナリオにおけるドメイン内データの強化に焦点を当てている。
対照的に、NERタスクのクロスドメインデータ拡張について検討する。
低リソースドメインに投影することにより、高リソースドメインからのデータを活用する可能性を検討する。
具体的には、パターン(例)を学習することで、データ表現を高リソースから低リソース領域に変換する新しいニューラルネットワークを提案する。
スタイル、ノイズ、略語など
区別するテキストと、両方のドメインが整列している共有機能空間です。
我々は、多様なデータセットを実験し、データを低リソースドメイン表現に変換することで、高リソースドメインのデータのみを使用して大幅に改善できることを示す。
関連論文リスト
- Complex Style Image Transformations for Domain Generalization in Medical Images [6.635679521775917]
ドメインの一般化技術は、単一のデータソースから未知のドメインにアプローチすることを目的としています。
本稿では,スタイル伝達と対角訓練を利用するCompStyleという新しいフレームワークを提案する。
前立腺データに対する意味的セグメンテーションと心臓データに対する汚濁堅牢性の実験結果を提供する。
論文 参考訳(メタデータ) (2024-06-01T04:57:31Z) - Trust your Good Friends: Source-free Domain Adaptation by Reciprocal
Neighborhood Clustering [50.46892302138662]
我々は、ソースデータがない場合に、ソース事前学習されたモデルをターゲット領域に適応させる、ソースフリー領域適応問題に対処する。
提案手法は,ソースドメイン分類器と一致しない可能性のあるターゲットデータが,依然として明確なクラスタを形成しているという観測に基づいている。
本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。
論文 参考訳(メタデータ) (2023-09-01T15:31:18Z) - MDViT: Multi-domain Vision Transformer for Small Medical Image Segmentation Datasets [19.44142290594537]
医用画像セグメンテーション(MIS)を改善するための有望なソリューションとして、ビジョントランスフォーマー(ViT)が登場した。
ViTは通常、単一のデータソースを使用してトレーニングされ、他の利用可能なデータセットから活用できる貴重な知識を見落としている。
本稿では,データハンガーを緩和し,NKTと戦うドメインアダプタを含む,最初のマルチドメイン ViT である MDViT を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:19:29Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Learning to Cluster under Domain Shift [20.00056591000625]
本研究では、ソースデータとターゲットデータの両方にアノテーションがない場合に、ソースからターゲットドメインに知識を転送する問題に対処する。
ディープクラスタリングに関する最近の研究から着想を得た私たちのアプローチは、複数のソースドメインから収集されたデータからの情報を活用する。
本手法は,少数のサンプルが存在する場合でも,関連する意味情報を自動的に発見できることを示す。
論文 参考訳(メタデータ) (2020-08-11T12:03:01Z) - Addressing Zero-Resource Domains Using Document-Level Context in Neural
Machine Translation [80.40677540516616]
ドメイン内の並列データが利用できない場合、文書レベルのコンテキストへのアクセスにより、ドメインの一般性をよりよくキャプチャできることを示す。
文書レベルのトランスフォーマーモデルとして,大きなコンテキストサイズを利用できる2つのモデルを提案する。
論文 参考訳(メタデータ) (2020-04-30T16:28:19Z) - Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog [70.79442700890843]
本稿では,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。
トレーニングデータが少ないと、平均13.9%の事前最良モデルを上回り、転送可能性を示す。
論文 参考訳(メタデータ) (2020-04-23T08:17:22Z) - Deep Domain-Adversarial Image Generation for Domain Generalisation [115.21519842245752]
マシンラーニングモデルは通常、ソースデータセットでトレーニングされたり、異なるディストリビューションのターゲットデータセットで評価されたりする際に、ドメインシフトの問題に悩まされる。
この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインからのデータを活用することを目的としている。
我々はemphDeep Domain-Adversarial Image Generation (DDAIG)に基づく新しいDG手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T23:17:47Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。