論文の概要: From Retrieval to Generation: Efficient and Effective Entity Set
Expansion
- arxiv url: http://arxiv.org/abs/2304.03531v3
- Date: Tue, 31 Oct 2023 15:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:19:32.866918
- Title: From Retrieval to Generation: Efficient and Effective Entity Set
Expansion
- Title(参考訳): 検索から生成へ:効率的かつ効果的なエンティティ集合の拡張
- Authors: Shulin Huang, Shirong Ma, Yangning Li, Yinghui Li, Yong Jiang, Hai-Tao
Zheng and Ying Shen
- Abstract要約: Entity Set Expansion(ESE)は、シードエンティティによって記述されるターゲットセマンティッククラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
本稿では, 生成事前学習型自動回帰言語モデルを用いて, ESEタスクを実現するGenExpan(Generative Entity Set Expansion)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.09291947965228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity Set Expansion (ESE) is a critical task aiming at expanding entities of
the target semantic class described by seed entities. Most existing ESE methods
are retrieval-based frameworks that need to extract contextual features of
entities and calculate the similarity between seed entities and candidate
entities. To achieve the two purposes, they iteratively traverse the corpus and
the entity vocabulary, resulting in poor efficiency and scalability.
Experimental results indicate that the time consumed by the retrieval-based ESE
methods increases linearly with entity vocabulary and corpus size. In this
paper, we firstly propose Generative Entity Set Expansion (GenExpan) framework,
which utilizes a generative pre-trained auto-regressive language model to
accomplish ESE task. Specifically, a prefix tree is employed to guarantee the
validity of entity generation, and automatically generated class names are
adopted to guide the model to generate target entities. Moreover, we propose
Knowledge Calibration and Generative Ranking to further bridge the gap between
generic knowledge of the language model and the goal of ESE task. For
efficiency, expansion time consumed by GenExpan is independent of entity
vocabulary and corpus size, and GenExpan achieves an average 600% speedup
compared to strong baselines. For expansion effectiveness, our framework
outperforms previous state-of-the-art ESE methods.
- Abstract(参考訳): Entity Set Expansion(ESE)は、シードエンティティによって記述されるターゲットセマンティッククラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
この2つの目的を達成するために、コーパスとエンティティ語彙を反復的に横断し、効率とスケーラビリティが低下する。
実験結果から, 検索に基づくESE法で消費される時間は, 実体語彙やコーパスサイズとともに線形に増加することがわかった。
本稿では、まず、生成事前学習型自動回帰言語モデルを用いてESEタスクを実現する、生成エンティティセット拡張(GenExpan)フレームワークを提案する。
具体的には、エンティティ生成の妥当性を保証するためにプレフィックスツリーを使用し、自動的に生成されたクラス名を採用して、ターゲットエンティティを生成する。
さらに,言語モデルの一般的な知識とESEタスクの目標とのギャップを埋めるため,知識校正と生成ランク付けを提案する。
効率性のために、GenExpanが消費する拡張時間はエンティティ語彙とコーパスサイズとは独立であり、GenExpanは強いベースラインに比べて平均600%のスピードアップを達成する。
拡張効率を向上させるため,従来のESE手法よりも優れた性能を示す。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Dynamic Retrieval-Augmented Generation [4.741884506444161]
動的検索・拡張生成(DRAG)のための新しい手法を提案する。
DRAGは、取得したエンティティの圧縮埋め込みを生成モデルに注入する。
提案手法は,(1)コンテキストウィンドウの長さ制限を解除し,迅速なサイズを節約すること,(2)コンテキストに利用可能な検索エンティティの数を膨大に拡張すること,(3)ミススペルや関連エンティティ名検索の失敗を緩和すること,の3つの目標を達成する。
論文 参考訳(メタデータ) (2023-12-14T14:26:57Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Automatic Context Pattern Generation for Entity Set Expansion [40.535332689515656]
我々は,エンティティの高品質なコンテキストパターンを自動的に生成するモジュールを開発する。
また、前述のGenerAted PAtternsを活用してターゲットエンティティを拡張するGAPAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-17T06:50:35Z) - Contrastive Learning with Hard Negative Entities for Entity Set
Expansion [29.155036098444008]
様々なNLPおよびIRアプリケーションは、知識を発見する能力により、ESEの恩恵を受けるだろう。
我々は、エンティティの表現を洗練させるために、コントラスト学習を伴うエンティティレベルのマスキング言語モデルを考案する。
さらに、上記の言語モデルによって得られたエンティティ表現を利用してエンティティを拡張する新しい確率的ESEフレームワークであるProbExpanを提案する。
論文 参考訳(メタデータ) (2022-04-16T12:26:42Z) - UNER: Universal Named-Entity RecognitionFramework [0.0]
私たちは、最初の多言語UNERコーパス(SETimesparallelコーパス)を作成します。
英語のSETimescorpusは、既存のツールと知識ベースを使って注釈付けされる。
結果として得られるアノテーションは、SE-Timesコーパス内の他の言語に自動的に伝達される。
論文 参考訳(メタデータ) (2020-10-23T13:53:31Z) - Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。
エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。
セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T00:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。