論文の概要: Adversarial Adaptation for French Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2301.05220v1
- Date: Thu, 12 Jan 2023 18:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:24:20.326873
- Title: Adversarial Adaptation for French Named Entity Recognition
- Title(参考訳): フランス語のエンティティ認識に対する逆適応
- Authors: Arjun Choudhry, Inder Khatri, Pankaj Gupta, Aaryan Gupta, Maxime
Nicol, Marie-Jean Meurs, Dinesh Kumar Vishwakarma
- Abstract要約: 類似の領域や一般コーパスに対する逆適応を用いたトランスフォーマーに基づくフランス語NERアプローチを提案する。
我々のアプローチでは、同じドメインや混合ドメインから大規模にラベル付けされていないコーパスを使って、より良い機能を学ぶことができます。
また, 大規模未ラベルコーパスに対する逆適応は, より小さなコーパスで事前学習したTransformerモデルを用いて, 性能低下を軽減できることを示す。
- 参考スコア(独自算出の注目度): 21.036698406367115
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Named Entity Recognition (NER) is the task of identifying and classifying
named entities in large-scale texts into predefined classes. NER in French and
other relatively limited-resource languages cannot always benefit from
approaches proposed for languages like English due to a dearth of large, robust
datasets. In this paper, we present our work that aims to mitigate the effects
of this dearth of large, labeled datasets. We propose a Transformer-based NER
approach for French, using adversarial adaptation to similar domain or general
corpora to improve feature extraction and enable better generalization. Our
approach allows learning better features using large-scale unlabeled corpora
from the same domain or mixed domains to introduce more variations during
training and reduce overfitting. Experimental results on three labeled datasets
show that our adaptation framework outperforms the corresponding non-adaptive
models for various combinations of Transformer models, source datasets, and
target corpora. We also show that adversarial adaptation to large-scale
unlabeled corpora can help mitigate the performance dip incurred on using
Transformer models pre-trained on smaller corpora.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、大規模テキスト中の名前付きエンティティを事前に定義されたクラスに識別し分類するタスクである。
フランス語や他の比較的限られたソース言語におけるNERは、大きくて堅牢なデータセットの不足のため、英語のような言語に提案されたアプローチの恩恵を受けることができない。
本稿では,この大規模ラベル付きデータセットの影響を軽減することを目的とした研究について述べる。
本稿では, 類似領域や一般コーパスに対する逆適応を用いて, 特徴抽出を改善し, より一般化できるトランスフォーマーベースNERアプローチを提案する。
このアプローチでは、同一ドメインや混合ドメインから大規模未ラベルコーパスを使用してより良い機能を学び、トレーニング中により多くのバリエーションを導入し、オーバーフィッティングを減らすことができる。
3つのラベル付きデータセットの実験結果から,我々の適応フレームワークはトランスフォーマーモデル,ソースデータセット,ターゲットコーパスの組み合わせにおいて,対応する非適応モデルよりも優れていた。
また, 大規模未ラベルコーパスに対する逆適応は, より小さなコーパスで事前学習したTransformerモデルを用いて, 性能低下を軽減できることを示す。
関連論文リスト
- Efficient Language Model Architectures for Differentially Private
Federated Learning [21.280600854272716]
クロスデバイス・フェデレーション・ラーニング(Cross-device Federated Learning, FL)は、デバイスを離れることなく、数百万のエッジデバイスに分散したデータ上でモデルをトレーニングするテクニックである。
言語モデルの集中的なトレーニングでは、安定性とパフォーマンスの向上を提供するため、適応が望ましい。
ニューラルリカレントセルにおけるシグモイドとタンハの活性化を修飾することにより、SI CIFG (Coupled Input Forget Gate) 再カレントネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:21:48Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Transformer-Based Named Entity Recognition for French Using Adversarial
Adaptation to Similar Domain Corpora [21.036698406367115]
類似の領域や一般コーパスに対する逆適応を用いたフランス語に対する変換器に基づくNERアプローチを提案する。
我々は3つのラベル付きデータセットに対するアプローチを評価し、適応フレームワークが対応する非適応モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-05T23:33:36Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - MemSAC: Memory Augmented Sample Consistency for Large Scale Unsupervised
Domain Adaptation [71.4942277262067]
本稿では,ソースドメインとターゲットドメイン間のサンプルレベルの類似性を利用して識別的転送を実現するMemSACを提案する。
我々は,MemSACの有効性に関する詳細な分析と知見を提供する。
論文 参考訳(メタデータ) (2022-07-25T17:55:28Z) - Exploiting Local and Global Features in Transformer-based Extreme
Multi-label Text Classification [28.28186933768281]
本稿では,Transformerモデルが生成する局所的特徴とグローバル的特徴を組み合わせることで,分類器の予測能力を向上させる手法を提案する。
本実験は,提案モデルがベンチマークデータセットの最先端手法よりも優れているか,あるいは同等であることを示す。
論文 参考訳(メタデータ) (2022-04-02T19:55:23Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - Adaptive Name Entity Recognition under Highly Unbalanced Data [5.575448433529451]
我々は,2方向LSTM (BI-LSTM) 上に積み重ねた条件付きランダムフィールド (CRF) 層からなるニューラルアーキテクチャについて実験を行った。
WeakクラスとStrongクラスを2つの異なるセットに分割し、各セットのパフォーマンスを最適化するために2つのBi-LSTM-CRFモデルを適切に設計するアドオン分類モデルを提案する。
論文 参考訳(メタデータ) (2020-03-10T06:56:52Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。