論文の概要: Recall, Expand and Multi-Candidate Cross-Encode: Fast and Accurate
Ultra-Fine Entity Typing
- arxiv url: http://arxiv.org/abs/2212.09125v1
- Date: Sun, 18 Dec 2022 16:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:42:51.256789
- Title: Recall, Expand and Multi-Candidate Cross-Encode: Fast and Accurate
Ultra-Fine Entity Typing
- Title(参考訳): リコール、拡張、多候補クロスエンコード:高速かつ高精度なエンティティタイピング
- Authors: Chengyue Jiang, Wenyang Hui, Yong Jiang, Xiaobin Wang, Pengjun Xie,
Kewei Tu
- Abstract要約: State-of-the-art(SOTA)メソッドは、クロスエンコーダ(CE)ベースのアーキテクチャを使用する。
我々は、MCCEと呼ばれる新しいモデルを用いて、これらのK候補を同時に符号化し、スコア付けする。
また,MCCEは細粒度 (130型) と粗粒度 (9型) のエンティティタイピングに非常に有効であることがわかった。
- 参考スコア(独自算出の注目度): 46.85183839946139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultra-fine entity typing (UFET) predicts extremely free-formed types (e.g.,
president, politician) of a given entity mention (e.g., Joe Biden) in context.
State-of-the-art (SOTA) methods use the cross-encoder (CE) based architecture.
CE concatenates the mention (and its context) with each type and feeds the
pairs into a pretrained language model (PLM) to score their relevance. It
brings deeper interaction between mention and types to reach better performance
but has to perform N (type set size) forward passes to infer types of a single
mention. CE is therefore very slow in inference when the type set is large
(e.g., N = 10k for UFET). To this end, we propose to perform entity typing in a
recall-expand-filter manner. The recall and expand stages prune the large type
set and generate K (K is typically less than 256) most relevant type candidates
for each mention. At the filter stage, we use a novel model called MCCE to
concurrently encode and score these K candidates in only one forward pass to
obtain the final type prediction. We investigate different variants of MCCE and
extensive experiments show that MCCE under our paradigm reaches SOTA
performance on ultra-fine entity typing and is thousands of times faster than
the cross-encoder. We also found MCCE is very effective in fine-grained (130
types) and coarse-grained (9 types) entity typing. Our code is available at
\url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE}.
- Abstract(参考訳): ウルトラファインエンティティタイピング(UFET)は、与えられたエンティティの言及(例えばジョー・バイデン)の極めて自由な型(例えば大統領、政治家)を文脈で予測する。
State-of-the-art(SOTA)メソッドは、クロスエンコーダ(CE)ベースのアーキテクチャを使用する。
ceは、各タイプへの言及(とその文脈)を結合し、ペアを事前訓練された言語モデル(plm)に供給し、関連性をスコアする。
パフォーマンスを向上させるために、参照と型の間のより深い相互作用をもたらすが、単一の参照の型を推論するためにN(タイプセットサイズ)を前方に通過する必要がある。
したがって、CE は型集合が大きいとき(例えば UFET の N = 10k など)推論において非常に遅い。
この目的のために,リコールフィルタ方式でエンティティ型付けを行うことを提案する。
リコールおよび拡張ステージは、大きな型集合をプルーンし、各言及に最も関連する型候補K(Kは256未満)を生成する。
フィルタ段階では、MCCEと呼ばれる新しいモデルを用いて、これらのK候補を1つのフォワードパスで同時に符号化し、スコアし、最終的な型予測を得る。
我々は,MCCEの様々な変種について検討し,MCCEが超微細なエンティティタイピングにおいてSOTA性能に到達し,クロスエンコーダよりも数千倍高速であることを示す。
また,MCCEは細粒度 (130型) と粗粒度 (9型) のエンティティタイピングに非常に有効であることがわかった。
私たちのコードは \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE} で利用可能です。
関連論文リスト
- Prototypical Hash Encoding for On-the-Fly Fine-Grained Category Discovery [65.16724941038052]
カテゴリ対応プロトタイプ生成(CPG)とディスクリミカテゴリ5.3%(DCE)が提案されている。
CPGは、各カテゴリを複数のプロトタイプで表現することで、カテゴリ内の多様性を完全にキャプチャすることを可能にする。
DCEは生成されたカテゴリプロトタイプのガイダンスによってハッシュコードの識別能力を向上する。
論文 参考訳(メタデータ) (2024-10-24T23:51:40Z) - Calibrated Seq2seq Models for Efficient and Generalizable Ultra-fine
Entity Typing [10.08153231108538]
超微細エンティティタイピング用に設計されたseq2seqモデルであるCASENTを提案する。
我々のモデルは、エンティティを入力として参照し、制約されたビームサーチを用いて複数のタイプを自動回帰的に生成する。
提案手法は,F1スコアとキャリブレーション誤差の点から,50倍以上の推算速度を達成しながら,従来の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2023-11-01T20:39:12Z) - ArcheType: A Novel Framework for Open-Source Column Type Annotation using Large Language Models [24.867534196627222]
ArcheTypeは、コンテキストサンプリング、即時シリアライゼーション、モデルクエリ、ラベルリマッピングのための、シンプルで実用的な方法である。
ゼロショットCTAベンチマークに最先端の性能を新たに確立する。
論文 参考訳(メタデータ) (2023-10-27T15:31:22Z) - EnCore: Fine-Grained Entity Typing by Pre-Training Entity Encoders on
Coreference Chains [22.469469997734965]
本稿では,コアファーリングエンティティの埋め込みが,他のエンティティの埋め込みよりも互いに類似しているようなエンティティエンコーダの事前学習を提案する。
2つの異なるオフザシェルフシステムによって予測されるコア参照リンクのみを考える。
論文 参考訳(メタデータ) (2023-05-22T11:11:59Z) - TypeT5: Seq2seq Type Inference using Static Analysis [51.153089609654174]
本稿では,型予測をコード入力タスクとして扱う新しい型推論手法を提案する。
本手法では静的解析を用いて,型シグネチャがモデルによって予測されるコード要素毎に動的コンテキストを構築する。
また,モデルの入力コンテキストに事前の型予測を組み込んだ反復復号方式を提案する。
論文 参考訳(メタデータ) (2023-03-16T23:48:00Z) - Modeling Label Correlations for Ultra-Fine Entity Typing with Neural
Pairwise Conditional Random Field [47.22366788848256]
We use an undirected graphical model called pairwise Conditional random field (PCRF) to formulaing the UFET problem。
我々は、エンティティ型付けに様々な現代的なバックボーンを使用し、一意ポテンシャルを計算し、型句表現からペアのポテンシャルを導出する。
我々は、非常に大きな型集合に対する効率的な型推論に平均場変分推論を使用し、それをニューラルネットワークモジュールとして展開し、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2022-12-03T09:49:15Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - A Chinese Corpus for Fine-grained Entity Typing [34.93317177668996]
クラウドソーシングによって手動でラベル付けされた4,800件の言及を含む,中国の微粒なエンティティタイピングのためのコーパスを紹介した。
より可能なシナリオでデータセットを有用にするために、すべてのきめ細かい型を10の一般的な型に分類する。
また,中国語の微粒なエンティティタイピングを言語間移動学習によって改善する可能性も示した。
論文 参考訳(メタデータ) (2020-04-19T11:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。