論文の概要: ESNERA: Empirical and semantic named entity alignment for named entity dataset merging
- arxiv url: http://arxiv.org/abs/2508.06877v1
- Date: Sat, 09 Aug 2025 08:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.592157
- Title: ESNERA: Empirical and semantic named entity alignment for named entity dataset merging
- Title(参考訳): ESNERA: 名前付きエンティティデータセットのマージのための実証的でセマンティックなエンティティアライメント
- Authors: Xiaobo Zhang, Congqing He, Ying He, Jian Peng, Dajie Fu, Tien-Ping Tan,
- Abstract要約: ラベル類似度に基づく自動ラベルアライメント手法を提案する。
まず、既存の3つのNERデータセットを統一されたコーパスにマージし、NERのパフォーマンスに最小限の影響を与える。
- 参考スコア(独自算出の注目度): 12.244023090963704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a fundamental task in natural language processing. It remains a research hotspot due to its wide applicability across domains. Although recent advances in deep learning have significantly improved NER performance, they rely heavily on large, high-quality annotated datasets. However, building these datasets is expensive and time-consuming, posing a major bottleneck for further research. Current dataset merging approaches mainly focus on strategies like manual label mapping or constructing label graphs, which lack interpretability and scalability. To address this, we propose an automatic label alignment method based on label similarity. The method combines empirical and semantic similarities, using a greedy pairwise merging strategy to unify label spaces across different datasets. Experiments are conducted in two stages: first, merging three existing NER datasets into a unified corpus with minimal impact on NER performance; second, integrating this corpus with a small-scale, self-built dataset in the financial domain. The results show that our method enables effective dataset merging and enhances NER performance in the low-resource financial domain. This study presents an efficient, interpretable, and scalable solution for integrating multi-source NER corpora.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は自然言語処理の基本的なタスクである。
ドメイン間の広範な適用性のため、研究ホットスポットのままである。
ディープラーニングの最近の進歩はNERのパフォーマンスを著しく向上させたが、それらは大規模で高品質な注釈付きデータセットに大きく依存している。
しかし、これらのデータセットの構築は高価で時間を要するため、さらなる研究のボトルネックとなっている。
現在のデータセットのマージアプローチは主に、解釈性とスケーラビリティに欠ける手動ラベルマッピングやラベルグラフの構築といった戦略に焦点を当てている。
そこで本研究では,ラベル類似性に基づくラベルアライメント手法を提案する。
この手法は経験的および意味的類似性を組み合わせて、異なるデータセットにまたがるラベル空間を統一するために、グレディなペアワイズ・マージ戦略を用いている。
まず、既存の3つのNERデータセットを統一されたコーパスにマージし、NERのパフォーマンスに最小限の影響を与える。
その結果,提案手法は,低リソースの金融分野におけるNER性能を効果的に統合し,向上させることが可能であることが示唆された。
本研究では,マルチソースNERコーパスを統合するための,効率的かつ解釈可能でスケーラブルなソリューションを提案する。
関連論文リスト
- Full Triple Matcher: Integrating all triple elements between heterogeneous Knowledge Graphs [0.09471093245585005]
知識グラフ(KG)は構造化情報の表現と推論のための強力なツールである。
現在のアプローチは、多様で複雑なコンテキストを統合する必要があるシナリオでは不足する可能性がある。
ラベルマッチングと3重マッチングからなる新しいKG積分法を提案する。
論文 参考訳(メタデータ) (2025-07-20T07:46:55Z) - SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition [40.23783832224238]
本稿では, Open NER における LLM の一般化を導くためのコンパクトデータセット B2NERD を提案する。
B2NERDは、既存の54の英語と中国語のデータセットから2段階のプロセスで洗練されている。
総合評価では、B2NERDはLLMのオープンNER能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T03:57:35Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。
DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文 参考訳(メタデータ) (2023-02-16T15:50:02Z) - Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning [80.36076044023581]
名前付きエンティティ認識(NER)のための効率的なバイエンコーダフレームワークを提案する。
我々はNERを、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題とみなす。
NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。
論文 参考訳(メタデータ) (2022-08-30T23:19:04Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。