論文の概要: Local Additivity Based Data Augmentation for Semi-supervised NER
- arxiv url: http://arxiv.org/abs/2010.01677v1
- Date: Sun, 4 Oct 2020 20:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:49:45.190397
- Title: Local Additivity Based Data Augmentation for Semi-supervised NER
- Title(参考訳): 半教師付きNERのための局所付加性に基づくデータ拡張
- Authors: Jiaao Chen, Zhenghui Wang, Ran Tian, Zichao Yang, Diyi Yang
- Abstract要約: 名前付きエンティティ認識(NER)は、深層言語理解の第1段階の1つである。
現在のNERモデルは、人間の注釈付きデータに大きく依存している。
半教師付きNERのための局所付加性に基づくデータ拡張法(LADA)を提案する。
- 参考スコア(独自算出の注目度): 59.90773003737093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) is one of the first stages in deep language
understanding yet current NER models heavily rely on human-annotated data. In
this work, to alleviate the dependence on labeled data, we propose a Local
Additivity based Data Augmentation (LADA) method for semi-supervised NER, in
which we create virtual samples by interpolating sequences close to each other.
Our approach has two variations: Intra-LADA and Inter-LADA, where Intra-LADA
performs interpolations among tokens within one sentence, and Inter-LADA
samples different sentences to interpolate. Through linear additions between
sampled training data, LADA creates an infinite amount of labeled data and
improves both entity and context learning. We further extend LADA to the
semi-supervised setting by designing a novel consistency loss for unlabeled
data. Experiments conducted on two NER benchmarks demonstrate the effectiveness
of our methods over several strong baselines. We have publicly released our
code at https://github.com/GT-SALT/LADA.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、深層言語理解の第1段階の1つだが、現在のNERモデルは人間の注釈付きデータに大きく依存している。
本研究では,ラベル付きデータへの依存を軽減するために,半教師付きNERのための局所付加性に基づくデータ拡張(LADA)手法を提案する。
提案手法には,1文以内のトークン間の補間を行うLADA内とLADA間という2つのバリエーションがあり,LADA間は相互補間のために異なる文をサンプリングする。
サンプルトレーニングデータ間の線形付加により、LADAは無限量のラベル付きデータを生成し、エンティティとコンテキストの学習を改善する。
ラベルのないデータに対する新しい一貫性損失を設計することにより、LADAをさらに半教師付き設定に拡張する。
2つのNERベンチマークで行った実験は、いくつかの強いベースライン上での手法の有効性を示した。
私たちはコードをhttps://github.com/gt-salt/ladaで公開しています。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - VALERIAN: Invariant Feature Learning for IMU Sensor-based Human Activity
Recognition in the Wild [7.50015216403068]
VALERIANは、Wild ウェアラブルセンサーベースのHARのための不変な特徴学習手法である。
VALERIANは、個別のタスク固有のレイヤを持つマルチタスクモデルをトレーニングすることにより、被験者間で共有された特徴表現の恩恵を受けながら、ノイズの多いラベルを個別に扱うことができる。
論文 参考訳(メタデータ) (2023-03-03T18:22:14Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Multi-Attribute Balanced Sampling for Disentangled GAN Controls [0.0]
予め訓練されたGANの潜伏空間から、生成されたデータに対する様々な制御を抽出することができる。
提案手法は,非絡み付き後処理の不要さを回避しつつ,最先端の分類器に基づく手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-28T08:44:13Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Exploiting Image Translations via Ensemble Self-Supervised Learning for
Unsupervised Domain Adaptation [0.0]
本稿では,複数の画像翻訳,アンサンブル学習,自己教師型学習を組み合わせた非教師なしドメイン適応(UDA)戦略を,一貫したアプローチで導入する。
我々は、ラベル付き合成データとラベル付き実世界のデータに基づいてセマンティックセグメンテーションモデルを訓練するUDAの標準的なタスクの1つに焦点を当てる。
論文 参考訳(メタデータ) (2021-07-13T16:43:02Z) - BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant
Supervision [49.42215511723874]
我々は,NERモデルの予測性能を改善するための新しい計算フレームワーク,BONDを提案する。
具体的には,2段階の学習アルゴリズムを提案する。第1段階では,遠隔ラベルを用いて,事前学習された言語モデルをNERタスクに適用する。
第2段階では,遠隔ラベルを廃止し,モデル性能をさらに向上するための自己学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T04:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。