論文の概要: From Retrieval to Generation: Efficient and Effective Entity Set
Expansion
- arxiv url: http://arxiv.org/abs/2304.03531v3
- Date: Tue, 31 Oct 2023 15:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:19:32.866918
- Title: From Retrieval to Generation: Efficient and Effective Entity Set
Expansion
- Title(参考訳): 検索から生成へ:効率的かつ効果的なエンティティ集合の拡張
- Authors: Shulin Huang, Shirong Ma, Yangning Li, Yinghui Li, Yong Jiang, Hai-Tao
Zheng and Ying Shen
- Abstract要約: Entity Set Expansion(ESE)は、シードエンティティによって記述されるターゲットセマンティッククラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
本稿では, 生成事前学習型自動回帰言語モデルを用いて, ESEタスクを実現するGenExpan(Generative Entity Set Expansion)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.09291947965228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity Set Expansion (ESE) is a critical task aiming at expanding entities of
the target semantic class described by seed entities. Most existing ESE methods
are retrieval-based frameworks that need to extract contextual features of
entities and calculate the similarity between seed entities and candidate
entities. To achieve the two purposes, they iteratively traverse the corpus and
the entity vocabulary, resulting in poor efficiency and scalability.
Experimental results indicate that the time consumed by the retrieval-based ESE
methods increases linearly with entity vocabulary and corpus size. In this
paper, we firstly propose Generative Entity Set Expansion (GenExpan) framework,
which utilizes a generative pre-trained auto-regressive language model to
accomplish ESE task. Specifically, a prefix tree is employed to guarantee the
validity of entity generation, and automatically generated class names are
adopted to guide the model to generate target entities. Moreover, we propose
Knowledge Calibration and Generative Ranking to further bridge the gap between
generic knowledge of the language model and the goal of ESE task. For
efficiency, expansion time consumed by GenExpan is independent of entity
vocabulary and corpus size, and GenExpan achieves an average 600% speedup
compared to strong baselines. For expansion effectiveness, our framework
outperforms previous state-of-the-art ESE methods.
- Abstract(参考訳): Entity Set Expansion(ESE)は、シードエンティティによって記述されるターゲットセマンティッククラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
この2つの目的を達成するために、コーパスとエンティティ語彙を反復的に横断し、効率とスケーラビリティが低下する。
実験結果から, 検索に基づくESE法で消費される時間は, 実体語彙やコーパスサイズとともに線形に増加することがわかった。
本稿では、まず、生成事前学習型自動回帰言語モデルを用いてESEタスクを実現する、生成エンティティセット拡張(GenExpan)フレームワークを提案する。
具体的には、エンティティ生成の妥当性を保証するためにプレフィックスツリーを使用し、自動的に生成されたクラス名を採用して、ターゲットエンティティを生成する。
さらに,言語モデルの一般的な知識とESEタスクの目標とのギャップを埋めるため,知識校正と生成ランク付けを提案する。
効率性のために、GenExpanが消費する拡張時間はエンティティ語彙とコーパスサイズとは独立であり、GenExpanは強いベースラインに比べて平均600%のスピードアップを達成する。
拡張効率を向上させるため,従来のESE手法よりも優れた性能を示す。
関連論文リスト
- Towards a Unified Language Model for Knowledge-Intensive Tasks Utilizing
External Corpus [22.27534528275182]
各種知識集約型タスクに外部コーパスを利用する統一言語モデルを提案する。
提案手法は, 2種類のバックボーンモデルを用いて, KILTベンチマークを用いて評価した。
実験の結果,検索および下流の知識集約タスクにおいて,モデルの性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Dynamic Retrieval-Augmented Generation [4.741884506444161]
動的検索・拡張生成(DRAG)のための新しい手法を提案する。
DRAGは、取得したエンティティの圧縮埋め込みを生成モデルに注入する。
提案手法は,(1)コンテキストウィンドウの長さ制限を解除し,迅速なサイズを節約すること,(2)コンテキストに利用可能な検索エンティティの数を膨大に拡張すること,(3)ミススペルや関連エンティティ名検索の失敗を緩和すること,の3つの目標を達成する。
論文 参考訳(メタデータ) (2023-12-14T14:26:57Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Automatic Context Pattern Generation for Entity Set Expansion [40.535332689515656]
我々は,エンティティの高品質なコンテキストパターンを自動的に生成するモジュールを開発する。
また、前述のGenerAted PAtternsを活用してターゲットエンティティを拡張するGAPAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-17T06:50:35Z) - Contrastive Learning with Hard Negative Entities for Entity Set
Expansion [29.155036098444008]
様々なNLPおよびIRアプリケーションは、知識を発見する能力により、ESEの恩恵を受けるだろう。
我々は、エンティティの表現を洗練させるために、コントラスト学習を伴うエンティティレベルのマスキング言語モデルを考案する。
さらに、上記の言語モデルによって得られたエンティティ表現を利用してエンティティを拡張する新しい確率的ESEフレームワークであるProbExpanを提案する。
論文 参考訳(メタデータ) (2022-04-16T12:26:42Z) - UNER: Universal Named-Entity RecognitionFramework [0.0]
私たちは、最初の多言語UNERコーパス(SETimesparallelコーパス)を作成します。
英語のSETimescorpusは、既存のツールと知識ベースを使って注釈付けされる。
結果として得られるアノテーションは、SE-Timesコーパス内の他の言語に自動的に伝達される。
論文 参考訳(メタデータ) (2020-10-23T13:53:31Z) - Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。
エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。
セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T00:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。