論文の概要: From Retrieval to Generation: Efficient and Effective Entity Set
Expansion
- arxiv url: http://arxiv.org/abs/2304.03531v2
- Date: Thu, 10 Aug 2023 10:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 16:08:28.247509
- Title: From Retrieval to Generation: Efficient and Effective Entity Set
Expansion
- Title(参考訳): 検索から生成へ:効率的かつ効果的なエンティティ集合の拡張
- Authors: Shulin Huang, Shirong Ma, Yangning Li, Yinghui Li, Hai-Tao Zheng, Yong
Jiang and Hong-Gee Kim
- Abstract要約: 我々は、ジェネレーティブエンティティセット拡張(GenExpan)という、ジェネレーティブESEフレームワークを提案する。
GenExpanは、ESEタスクを達成するために、生成事前訓練された言語モデルを利用する。
公開されているデータセットの実験は、GenExpanが効率的で効果的であることを示している。
- 参考スコア(独自算出の注目度): 29.08853932577849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity Set Expansion (ESE) is a critical task aiming to expand entities of
the target semantic class described by a small seed entity set. Most existing
ESE methods are retrieval-based frameworks that need to extract the contextual
features of entities and calculate the similarity between seed entities and
candidate entities. To achieve the two purposes, they should iteratively
traverse the corpus and the entity vocabulary provided in the datasets,
resulting in poor efficiency and scalability. The experimental results indicate
that the time consumed by the retrieval-based ESE methods increases linearly
with entity vocabulary and corpus size. In this paper, we firstly propose a
generative ESE framework, Generative Entity Set Expansion (GenExpan), which
utilizes a generative pre-trained language model to accomplish ESE task.
Specifically, a prefix tree is employed to guarantee the validity of entity
generation, and automatically generated class names are adopted to guide the
model to generate target entities. Moreover, we propose Knowledge Calibration
and Generative Ranking to further bridge the gap between generic knowledge of
the language model and the goal of ESE task. Experiments on publicly available
datasets show that GenExpan is efficient and effective. For efficiency,
expansion time consumed by GenExpan is independent of entity vocabulary and
corpus size, and GenExpan achieves an average 600% speedup compared to strong
baselines. For expansion performance, our framework outperforms previous
state-of-the-art ESE methods.
- Abstract(参考訳): エンティティセット拡張(ese)は、小さなシードエンティティセットによって記述されたターゲットセマンティクスクラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
この2つの目的を達成するためには、データセットで提供されるコーパスとエンティティ語彙を反復的にトラバースする必要がある。
実験結果から, 検索に基づくESE法で消費される時間は, 実体語彙やコーパスサイズとともに線形に増加することがわかった。
本稿では、まず、生成事前学習言語モデルを用いてESEタスクを遂行する、生成型ESEフレームワーク、Generative Entity Set Expansion(GenExpan)を提案する。
具体的には、エンティティ生成の妥当性を保証するためにプレフィックスツリーを使用し、自動的に生成されたクラス名を採用して、ターゲットエンティティを生成する。
さらに,言語モデルの一般的な知識とESEタスクの目標とのギャップを埋めるため,知識校正と生成ランク付けを提案する。
公開されているデータセットの実験は、GenExpanが効率的で効果的であることを示している。
効率性のために、GenExpanが消費する拡張時間はエンティティ語彙とコーパスサイズとは独立であり、GenExpanは強いベースラインに比べて平均600%のスピードアップを達成する。
拡張性能については,従来のESE手法よりも優れた性能を示す。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Dynamic Retrieval-Augmented Generation [4.741884506444161]
動的検索・拡張生成(DRAG)のための新しい手法を提案する。
DRAGは、取得したエンティティの圧縮埋め込みを生成モデルに注入する。
提案手法は,(1)コンテキストウィンドウの長さ制限を解除し,迅速なサイズを節約すること,(2)コンテキストに利用可能な検索エンティティの数を膨大に拡張すること,(3)ミススペルや関連エンティティ名検索の失敗を緩和すること,の3つの目標を達成する。
論文 参考訳(メタデータ) (2023-12-14T14:26:57Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Automatic Context Pattern Generation for Entity Set Expansion [40.535332689515656]
我々は,エンティティの高品質なコンテキストパターンを自動的に生成するモジュールを開発する。
また、前述のGenerAted PAtternsを活用してターゲットエンティティを拡張するGAPAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-17T06:50:35Z) - Contrastive Learning with Hard Negative Entities for Entity Set
Expansion [29.155036098444008]
様々なNLPおよびIRアプリケーションは、知識を発見する能力により、ESEの恩恵を受けるだろう。
我々は、エンティティの表現を洗練させるために、コントラスト学習を伴うエンティティレベルのマスキング言語モデルを考案する。
さらに、上記の言語モデルによって得られたエンティティ表現を利用してエンティティを拡張する新しい確率的ESEフレームワークであるProbExpanを提案する。
論文 参考訳(メタデータ) (2022-04-16T12:26:42Z) - UNER: Universal Named-Entity RecognitionFramework [0.0]
私たちは、最初の多言語UNERコーパス(SETimesparallelコーパス)を作成します。
英語のSETimescorpusは、既存のツールと知識ベースを使って注釈付けされる。
結果として得られるアノテーションは、SE-Timesコーパス内の他の言語に自動的に伝達される。
論文 参考訳(メタデータ) (2020-10-23T13:53:31Z) - Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。
エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。
セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T00:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。