論文の概要: Generative Entity Typing with Curriculum Learning
- arxiv url: http://arxiv.org/abs/2210.02914v1
- Date: Thu, 6 Oct 2022 13:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:26:13.622586
- Title: Generative Entity Typing with Curriculum Learning
- Title(参考訳): カリキュラム学習による生成エンティティ型付け
- Authors: Siyu Yuan, Deqing Yang, Jiaqing Liang, Zhixu Li, Jinxi Liu, Jingyue
Huang, Yanghua Xiao
- Abstract要約: 本稿では,新しい生成エンティティタイピング(GET)パラダイムを提案する。
エンティティが言及したテキストが与えられた場合、エンティティがテキストで果たす役割の複数の型は、事前訓練された言語モデルで生成される。
我々の実験は、最先端エンティティ型付けモデルよりもGETモデルの方が優れていることを正当化します。
- 参考スコア(独自算出の注目度): 18.43562065432877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity typing aims to assign types to the entity mentions in given texts. The
traditional classification-based entity typing paradigm has two unignorable
drawbacks: 1) it fails to assign an entity to the types beyond the predefined
type set, and 2) it can hardly handle few-shot and zero-shot situations where
many long-tail types only have few or even no training instances. To overcome
these drawbacks, we propose a novel generative entity typing (GET) paradigm:
given a text with an entity mention, the multiple types for the role that the
entity plays in the text are generated with a pre-trained language model (PLM).
However, PLMs tend to generate coarse-grained types after fine-tuning upon the
entity typing dataset. Besides, we only have heterogeneous training data
consisting of a small portion of human-annotated data and a large portion of
auto-generated but low-quality data. To tackle these problems, we employ
curriculum learning (CL) to train our GET model upon the heterogeneous data,
where the curriculum could be self-adjusted with the self-paced learning
according to its comprehension of the type granularity and data heterogeneity.
Our extensive experiments upon the datasets of different languages and
downstream tasks justify the superiority of our GET model over the
state-of-the-art entity typing models. The code has been released on
https://github.com/siyuyuan/GET.
- Abstract(参考訳): エンティティ型付けは、与えられたテキストのエンティティ参照に型を割り当てることを目的としている。
従来の分類に基づくエンティティ型付けパラダイムには、2つの無視できない欠点がある。
1) 事前に定義された型セットを超えた型にエンティティを割り当てることに失敗し、そして
2) 多くのロングテール型がトレーニングインスタンスをほとんど、あるいは全く持たない状況では、ほとんど処理できない。
このような欠点を克服するために,本論文では,エンティティに言及したテキストが与えられた場合に,そのエンティティが果たす役割の複数の型が,事前学習された言語モデル(PLM)によって生成される,新しい生成エンティティ型付け(GET)パラダイムを提案する。
しかしながら、PLMはエンティティ型付けデータセットを微調整した後、粗い型を生成する傾向がある。
また、人間の注釈付きデータのごく一部と、自動生成されるが品質の低いデータからなる異種トレーニングデータのみを有する。
これらの問題に対処するために,我々はカリキュラム学習(CL)を用いて,不均一なデータに基づいてGETモデルをトレーニングし,型粒度とデータ異質性の理解に基づいて,カリキュラムを自己更新学習で自己調整することができる。
さまざまな言語や下流タスクのデータセットに関する広範な実験は、最先端エンティティ型付けモデルよりもGETモデルの優位性を正当化します。
コードはhttps://github.com/siyuyuan/getでリリースされている。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - From Ultra-Fine to Fine: Fine-tuning Ultra-Fine Entity Typing Models to
Fine-grained [12.948753628039093]
この問題に対処する一般的な方法は、間違ったラベルを含む遠方の注釈付きトレーニングデータを使用することである。
我々は,新しい型スキーマが存在する場合,遠隔ラベル付きデータを作成する必要がなくなるような新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:12:01Z) - Ontology Enrichment for Effective Fine-grained Entity Typing [45.356694904518626]
きめ細かいエンティティタイピング(FET)は、コンテキスト情報に基づいてエンティティの参照に対して、特定のエンティティタイプをきめ細かいレベルで識別するタスクである。
FETの従来の方法には、時間と費用がかかる広範囲な人的アノテーションが必要である。
提案手法は,コントラストのあるトピックとインスタンスベースの強化トレーニングサンプルを用いたエンテーメントモデルをトレーニングすることにより,その情報を利用する粗大なタイピングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-10-11T18:30:37Z) - OntoType: Ontology-Guided and Pre-Trained Language Model Assisted Fine-Grained Entity Typing [25.516304052884397]
きめ細かいエンティティタイピング(FET)は、コンテキストに敏感できめ細かいセマンティックタイプでエンティティをテキストに割り当てる。
OntoTypeは、粗いものから細いものまで、型オントロジ構造に従い、複数のPLMをアンサンブルすることで、型候補のセットを生成する。
Ontonotes、FIGER、NYTデータセットに関する我々の実験は、我々の手法が最先端のゼロショットの微細なエンティティタイピング方法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-05-21T00:32:37Z) - Few-Shot Fine-Grained Entity Typing with Automatic Label Interpretation
and Instance Generation [36.541309948222306]
各エンティティタイプに対して,アノテーション付きエンティティ参照が付与される場合,FET(Fall-shot Fine-fine Entity Typing)の問題について検討する。
そこで本稿では,(1) エンティティ型ラベル解釈モジュールが,少数ショットインスタンスとラベル階層を併用することで,タイプラベルと語彙の関連付けを自動的に学習し,(2) 型ベースのコンテキスト化インスタンス生成器は,与えられたインスタンスに基づいて新しいインスタンスを生成して,より一般化のためにトレーニングセットを拡大する,という,2つのモジュールからなる新しいFETフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-28T04:05:40Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。