論文の概要: DANSK and DaCy 2.6.0: Domain Generalization of Danish Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2402.18209v1
- Date: Wed, 28 Feb 2024 10:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:22:56.760850
- Title: DANSK and DaCy 2.6.0: Domain Generalization of Danish Named Entity
Recognition
- Title(参考訳): DANSK and DaCy 2.6.0: Domain Generalization of Danish Named Entity Recognition
- Authors: Kenneth Enevoldsen, Emil Trenckner Jessen, Rebekah Baglini
- Abstract要約: 本稿では,高粒度タグ付けとドメイン内モデルの評価が可能なエンティティデータセットであるDANSKを紹介する。
既存モデルと新規モデルの評価は、ドメイン間での顕著なパフォーマンスの相違を明らかにした。
これらの制限にもかかわらず、デンマークのNERにおける一般化可能性に関するさらなる研究とともに、新たなデータセットDANSKの使用を提唱する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Named entity recognition is one of the cornerstones of Danish NLP, essential
for language technology applications within both industry and research.
However, Danish NER is inhibited by a lack of available datasets. As a
consequence, no current models are capable of fine-grained named entity
recognition, nor have they been evaluated for potential generalizability issues
across datasets and domains. To alleviate these limitations, this paper
introduces: 1) DANSK: a named entity dataset providing for high-granularity
tagging as well as within-domain evaluation of models across a diverse set of
domains; 2) DaCy 2.6.0 that includes three generalizable models with
fine-grained annotation; and 3) an evaluation of current state-of-the-art
models' ability to generalize across domains. The evaluation of existing and
new models revealed notable performance discrepancies across domains, which
should be addressed within the field. Shortcomings of the annotation quality of
the dataset and its impact on model training and evaluation are also discussed.
Despite these limitations, we advocate for the use of the new dataset DANSK
alongside further work on the generalizability within Danish NER.
- Abstract(参考訳): 名前付き実体認識はデンマークのNLPの基盤の1つであり、産業と研究の両方において言語技術の応用に不可欠である。
しかし、デンマークのNERは利用可能なデータセットの不足によって阻害されている。
その結果、現在のモデルでは命名されたエンティティの認識を微粒化することはできないし、データセットやドメイン間での一般化可能性の問題にも評価されていない。
これらの制限を緩和するために、本論文では以下を紹介する。
1) dansk: 名前付きエンティティデータセットは、多種多様なドメインにわたるモデルのドメイン内評価と同様に、高粒度タグ付けを提供する。
2) 微粒なアノテーションを持つ3つの一般化可能なモデルを含むDaCy 2.6.0
3) ドメインをまたいで一般化する現在の技術モデルの能力の評価。
既存のモデルと新しいモデルの評価により、フィールド内で対処すべきドメイン間の顕著なパフォーマンスの相違が明らかになった。
また、データセットのアノテーション品質の欠点とモデルトレーニングと評価への影響についても論じる。
これらの制限にもかかわらず、デンマークのNERにおける一般化可能性に関するさらなる研究とともに、新たなデータセットDANSKの使用を提唱する。
関連論文リスト
- PointDGMamba: Domain Generalization of Point Cloud Classification via Generalized State Space Model [77.00221501105788]
ドメイン一般化(DG)は、最近、ポイントクラウド分類(PCC)モデルの、目に見えない領域への一般化性を改善するために研究されている。
本稿では、DG PCCにおける状態空間モデル(SSM)の一般化可能性について研究する。
本稿では,未知の領域に対して強い一般化性を持つ新しいフレームワークであるPointDGMambaを提案する。
論文 参考訳(メタデータ) (2024-08-24T12:53:48Z) - Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition [100.39728263079736]
実世界のエンティティ認識のための包括的なデータセットであるEntity6Kを紹介する。
26のカテゴリに5700のエンティティがあり、それぞれがアノテーション付きの5つの人間認証イメージによってサポートされている。
論文 参考訳(メタデータ) (2024-03-19T01:07:53Z) - Overcoming Data Inequality across Domains with Semi-Supervised Domain
Generalization [4.921899151930171]
本稿では,ドメイン認識型プロトタイプを用いて,ドメイン不変性を効果的に学習できる新しいアルゴリズムProUDを提案する。
3つの異なるベンチマークデータセットに対する実験により, ProUDの有効性が示された。
論文 参考訳(メタデータ) (2024-03-08T10:49:37Z) - On Certifying and Improving Generalization to Unseen Domains [87.00662852876177]
ドメインの一般化は、テスト時に遭遇した見知らぬドメインのパフォーマンスが高いモデルを学ぶことを目的としています。
いくつかのベンチマークデータセットを使用して、DGアルゴリズムを包括的に評価することは困難である。
我々は,任意のDG手法の最悪の性能を効率的に証明できる普遍的な認証フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T16:29:43Z) - NICO++: Towards Better Benchmarking for Domain Generalization [44.11418240848957]
NICO++というラベル付きドメインを持つ大規模ベンチマークを提案する。
NICO++は現在のDGデータセットと比較して優れた評価能力を示している。
論文 参考訳(メタデータ) (2022-04-17T15:57:12Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - COLUMBUS: Automated Discovery of New Multi-Level Features for Domain
Generalization via Knowledge Corruption [12.555885317622131]
ここでは、ソースドメインの集合で訓練されたモデルが、データに触れることなく、目に見えないドメインでうまく一般化されることを期待する領域一般化問題に対処する。
コロンバス(Columbus)は、最も関連性の高い入力とマルチレベルのデータ表現を対象とする汚職によって、新機能の発見を強制する手法である。
論文 参考訳(メタデータ) (2021-09-09T14:52:05Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Domain Adaptation with Incomplete Target Domains [61.68950959231601]
本稿では、この新たなドメイン適応問題に対処するために、不完全データインプットに基づく Adversarial Network (IDIAN) モデルを提案する。
提案モデルでは,対象領域における部分的な観測に基づいて,欠落した特徴値を満たすデータ計算モジュールを設計する。
我々は、クロスドメインベンチマークタスクと、不完全なターゲットドメインを用いた実世界適応タスクの両方で実験を行う。
論文 参考訳(メタデータ) (2020-12-03T00:07:40Z) - Learning causal representations for robust domain adaptation [31.261956776418618]
多くの現実世界のアプリケーションでは、ターゲットのドメインデータが常に利用できるとは限らない。
本稿では,学習段階において対象ドメインデータが利用できない場合について検討する。
本稿では,深層オートエンコーダと因果構造学習を統一モデルに統合したCausal AutoEncoder (CAE)を提案する。
論文 参考訳(メタデータ) (2020-11-12T11:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。