論文の概要: Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains
- arxiv url: http://arxiv.org/abs/2401.13129v2
- Date: Tue, 20 Feb 2024 18:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:37:13.882829
- Title: Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains
- Title(参考訳): 科学・工学領域における種誘導型細粒体タイピング
- Authors: Yu Zhang, Yunyi Zhang, Yanzhen Shen, Yu Deng, Lucian Popa, Larisa
Shwartz, ChengXiang Zhai, Jiawei Han
- Abstract要約: 科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
- 参考スコア(独自算出の注目度): 51.02035914828596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately typing entity mentions from text segments is a fundamental task
for various natural language processing applications. Many previous approaches
rely on massive human-annotated data to perform entity typing. Nevertheless,
collecting such data in highly specialized science and engineering domains
(e.g., software engineering and security) can be time-consuming and costly,
without mentioning the domain gaps between training and inference data if the
model needs to be applied to confidential datasets. In this paper, we study the
task of seed-guided fine-grained entity typing in science and engineering
domains, which takes the name and a few seed entities for each entity type as
the only supervision and aims to classify new entity mentions into both seen
and unseen types (i.e., those without seed entities). To solve this problem, we
propose SEType which first enriches the weak supervision by finding more
entities for each seen type from an unlabeled corpus using the contextualized
representations of pre-trained language models. It then matches the enriched
entities to unlabeled text to get pseudo-labeled samples and trains a textual
entailment model that can make inferences for both seen and unseen types.
Extensive experiments on two datasets covering four domains demonstrate the
effectiveness of SEType in comparison with various baselines.
- Abstract(参考訳): テキストセグメントからの正確な型付けエンティティは、様々な自然言語処理アプリケーションにとって基本的なタスクである。
以前の多くのアプローチでは、エンティティ型付けを行うために大量の人間注釈データに依存している。
それでも、高度に専門化された科学と工学の領域(例えば、ソフトウェア工学とセキュリティ)でそのようなデータを収集することは、モデルが機密データセットに適用する必要がある場合、トレーニングデータと推論データの間のドメインギャップを言及することなく、時間とコストがかかる。
本稿では,各エンティティタイプの名称と数種を唯一の監督として,新たなエンティティ参照を目に見える型と見えない型(すなわちシードエンティティのない型)に分類することを目的とした,科学・工学領域における種誘導型(seed-guided fine-grained)の課題について検討する。
そこで本研究では,まず,事前学習した言語モデルの文脈化表現を用いて,ラベルのないコーパスから各タイプのエンティティを抽出し,弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
4つのドメインをカバーする2つのデータセットに関する広範な実験は、様々なベースラインと比較してsetypeの有効性を示している。
関連論文リスト
- Name Tagging Under Domain Shift via Metric Learning for Life Sciences [60.28614660153841]
バイオメディカルドメインで訓練された名前タグ付けモデルを強化するための転写学習の適用性について検討する。
このようなモデルをトレーニングするための一般的なプラクティスは、ラベル付きソースデータ上でモデルを事前トレーニングし、ラベル付きターゲットサンプルのハンドフルでそれを微調整することです。
本稿では、ソースドメインからターゲットドメインに知識を転送すると同時に、ソースエンティティとターゲットエンティティを特徴空間の別々の領域に投影するモデルを提案する。
論文 参考訳(メタデータ) (2024-01-19T03:49:28Z) - OntoType: Ontology-Guided Zero-Shot Fine-Grained Entity Typing with Weak
Supervision from Pre-Trained Language Models [26.263065299281372]
きめ細かいエンティティタイピング(FET)は、コンテキストに敏感できめ細かいセマンティックタイプでエンティティをテキストに割り当てる。
最近の研究は、事前訓練された言語モデル(PLM)を利用して、FETのためのリッチでコンテキスト対応の弱い監視を生成する。
オントロジーはセマンティクスに富んだ階層構造を提供し、複数のPLMモデルとヘッドワードが生成する最良の結果を選択するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-21T00:32:37Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Generative Entity Typing with Curriculum Learning [18.43562065432877]
本稿では,新しい生成エンティティタイピング(GET)パラダイムを提案する。
エンティティが言及したテキストが与えられた場合、エンティティがテキストで果たす役割の複数の型は、事前訓練された言語モデルで生成される。
我々の実験は、最先端エンティティ型付けモデルよりもGETモデルの方が優れていることを正当化します。
論文 参考訳(メタデータ) (2022-10-06T13:32:50Z) - Few-Shot Fine-Grained Entity Typing with Automatic Label Interpretation
and Instance Generation [36.541309948222306]
各エンティティタイプに対して,アノテーション付きエンティティ参照が付与される場合,FET(Fall-shot Fine-fine Entity Typing)の問題について検討する。
そこで本稿では,(1) エンティティ型ラベル解釈モジュールが,少数ショットインスタンスとラベル階層を併用することで,タイプラベルと語彙の関連付けを自動的に学習し,(2) 型ベースのコンテキスト化インスタンス生成器は,与えられたインスタンスに基づいて新しいインスタンスを生成して,より一般化のためにトレーニングセットを拡大する,という,2つのモジュールからなる新しいFETフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-28T04:05:40Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z) - A Chinese Corpus for Fine-grained Entity Typing [34.93317177668996]
クラウドソーシングによって手動でラベル付けされた4,800件の言及を含む,中国の微粒なエンティティタイピングのためのコーパスを紹介した。
より可能なシナリオでデータセットを有用にするために、すべてのきめ細かい型を10の一般的な型に分類する。
また,中国語の微粒なエンティティタイピングを言語間移動学習によって改善する可能性も示した。
論文 参考訳(メタデータ) (2020-04-19T11:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。