論文の概要: Partially-Typed NER Datasets Integration: Connecting Practice to Theory
- arxiv url: http://arxiv.org/abs/2005.00502v1
- Date: Fri, 1 May 2020 17:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-07 22:33:45.502052
- Title: Partially-Typed NER Datasets Integration: Connecting Practice to Theory
- Title(参考訳): 部分型NERデータセット統合:実践と理論を結びつける
- Authors: Shi Zhi and Liyuan Liu and Yu Zhang and Shiyin Wang and Qi Li and Chao
Zhang and Jiawei Han
- Abstract要約: 部分型NERデータセットと完全型データセットの体系的解析と比較を行う。
部分的に型付けされたアノテーションでトレーニングされたモデルが、完全に型付けされたアノテーションでトレーニングされたモデルと同じようなパフォーマンスに到達できることを保証するためのバウンダリを導出します。
- 参考スコア(独自算出の注目度): 39.98003247485084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While typical named entity recognition (NER) models require the training set
to be annotated with all target types, each available datasets may only cover a
part of them. Instead of relying on fully-typed NER datasets, many efforts have
been made to leverage multiple partially-typed ones for training and allow the
resulting model to cover a full type set. However, there is neither guarantee
on the quality of integrated datasets, nor guidance on the design of training
algorithms. Here, we conduct a systematic analysis and comparison between
partially-typed NER datasets and fully-typed ones, in both theoretical and
empirical manner. Firstly, we derive a bound to establish that models trained
with partially-typed annotations can reach a similar performance with the ones
trained with fully-typed annotations, which also provides guidance on the
algorithm design. Moreover, we conduct controlled experiments, which shows
partially-typed datasets leads to similar performance with the model trained
with the same amount of fully-typed annotations
- Abstract(参考訳): 典型的な名前付きエンティティ認識(NER)モデルは、トレーニングセットにすべてのターゲットタイプにアノテートする必要があるが、利用可能なデータセットは、その一部のみをカバーすることができる。
完全に型付けされたNERデータセットに頼る代わりに、トレーニングのために複数の部分型データセットを活用し、結果としてモデルが完全な型セットをカバーするように多くの取り組みがなされている。
しかし、統合データセットの品質は保証されておらず、トレーニングアルゴリズムの設計に関するガイダンスもない。
そこで我々は,部分的に型付けされたNERデータセットと完全型付けされたデータセットを理論的および実証的な方法で体系的に分析し,比較する。
まず、部分的に型付けされたアノテーションでトレーニングされたモデルが、完全に型付けされたアノテーションでトレーニングされたモデルと同じようなパフォーマンスを達成できることを示す。
さらに、制御実験を行い、部分型データセットは、同じ量の完全型アノテーションで訓練されたモデルと同じようなパフォーマンスをもたらすことを示す。
関連論文リスト
- PUnifiedNER: a Prompting-based Unified NER System for Diverse Datasets [13.97033811891111]
プロンプトベース統一NERシステム(PunifiedNER)について述べる。
最大37のエンティティタイプを同時に認識できる。
いくつかのデータセットに対する最先端のドメイン固有メソッドよりも、競争力やパフォーマンスが向上します。
論文 参考訳(メタデータ) (2022-11-27T14:25:48Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Discriminative, Generative and Self-Supervised Approaches for
Target-Agnostic Learning [8.666667951130892]
生成的および自己教師型学習モデルは、そのタスクでうまく機能することが示されている。
擬似相似理論の導出した定理は、結合分布モデルの推定に関係があることも示している。
論文 参考訳(メタデータ) (2020-11-12T15:03:40Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - AutoETER: Automated Entity Type Representation for Knowledge Graph
Embedding [40.900070190077024]
我々は、Entity TypE Representation(AutoETER)を用いた新しい知識グラフ埋め込み(KGE)フレームワークを開発した。
我々のアプローチは、すべての関係パターンと複雑な関係をモデル化し、推測することができる。
4つのデータセットの実験は、リンク予測タスクにおける最先端のベースラインと比較して、我々のモデルの優れた性能を示している。
論文 参考訳(メタデータ) (2020-09-25T04:27:35Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。