論文の概要: TABi: Type-Aware Bi-Encoders for Open-Domain Entity Retrieval
- arxiv url: http://arxiv.org/abs/2204.08173v1
- Date: Mon, 18 Apr 2022 05:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:26:49.633328
- Title: TABi: Type-Aware Bi-Encoders for Open-Domain Entity Retrieval
- Title(参考訳): TABi: オープンドメインエンティティ検索のためのタイプアウェアなバイエンコーダ
- Authors: Megan Leszczynski, Daniel Y. Fu, Mayee F. Chen, Christopher R\'e
- Abstract要約: 本稿では,知識グラフ型とエンティティ検索のための非構造化テキスト上で,バイエンコーダを協調訓練するTABiを紹介する。
TABi は Ambiguous Entity Retrieval (AmbER) セット上のレアエンティティの検索を改善する。
また、不完全な型システムにも堅牢で、トレーニングデータセットの5%の型カバレッジしか持たず、ベースラインでの希少なエンティティ検索を改善している。
- 参考スコア(独自算出の注目度): 9.745472576444472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity retrieval--retrieving information about entity mentions in a query--is
a key step in open-domain tasks, such as question answering or fact checking.
However, state-of-the-art entity retrievers struggle to retrieve rare entities
for ambiguous mentions due to biases towards popular entities. Incorporating
knowledge graph types during training could help overcome popularity biases,
but there are several challenges: (1) existing type-based retrieval methods
require mention boundaries as input, but open-domain tasks run on unstructured
text, (2) type-based methods should not compromise overall performance, and (3)
type-based methods should be robust to noisy and missing types. In this work,
we introduce TABi, a method to jointly train bi-encoders on knowledge graph
types and unstructured text for entity retrieval for open-domain tasks. TABi
leverages a type-enforced contrastive loss to encourage entities and queries of
similar types to be close in the embedding space. TABi improves retrieval of
rare entities on the Ambiguous Entity Retrieval (AmbER) sets, while maintaining
strong overall retrieval performance on open-domain tasks in the KILT benchmark
compared to state-of-the-art retrievers. TABi is also robust to incomplete type
systems, improving rare entity retrieval over baselines with only 5% type
coverage of the training dataset. We make our code publicly available at
https://github.com/HazyResearch/tabi.
- Abstract(参考訳): エンティティ検索-クエリ内でエンティティの参照に関する情報を取得する - 質問応答や事実チェックなどのオープンドメインタスクにおいて重要なステップである。
しかし、最先端のエンティティレトリバーは、一般的なエンティティに対するバイアスのため、曖昧な言及のために稀なエンティティを回収するのに苦労している。
トレーニング中に知識グラフを組み込むことは、人気バイアスを克服するのに役立つが、(1)既存の型ベースの検索手法は、入力として参照境界を必要とするが、非構造化テキスト上で実行されるオープンドメインタスクは、全体的なパフォーマンスを損なうべきではない。
本研究では,オープンドメインタスクのためのエンティティ検索のための知識グラフ型と非構造化テキストの両エンコーダを協調訓練するTABiを紹介する。
tabiは、型強制のコントラスト損失を利用して、同様のタイプのエンティティとクエリが埋め込み空間に近接することを奨励する。
TABiは、AmbER(AmbGuous Entity Retrieval)セット上の希少なエンティティの検索を改善し、KILTベンチマークにおけるオープンドメインタスクの全体的な検索性能は最先端の検索よりも高い。
tabiは不完全な型システムにも堅牢であり、トレーニングデータセットのわずか5%の型カバレッジで、ベースライン上のレアエンティティ検索を改善している。
コードをhttps://github.com/HazyResearch/tabi.comで公開しています。
関連論文リスト
- Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Entity Type Prediction Leveraging Graph Walks and Entity Descriptions [4.147346416230273]
textitGRANDは、RDF2vecの異なるグラフウォーク戦略とテキストエンティティ記述を利用したエンティティ型付けの新しいアプローチである。
提案手法は,細粒度クラスと粗粒度クラスの両方において,KGにおけるエンティティ型付けのためのベンチマークデータセットDBpediaとFIGERのベースラインアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-07-28T13:56:55Z) - Few-Shot Fine-Grained Entity Typing with Automatic Label Interpretation
and Instance Generation [36.541309948222306]
各エンティティタイプに対して,アノテーション付きエンティティ参照が付与される場合,FET(Fall-shot Fine-fine Entity Typing)の問題について検討する。
そこで本稿では,(1) エンティティ型ラベル解釈モジュールが,少数ショットインスタンスとラベル階層を併用することで,タイプラベルと語彙の関連付けを自動的に学習し,(2) 型ベースのコンテキスト化インスタンス生成器は,与えられたインスタンスに基づいて新しいインスタンスを生成して,より一般化のためにトレーニングセットを拡大する,という,2つのモジュールからなる新しいFETフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-28T04:05:40Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Parallel Instance Query Network for Named Entity Recognition [73.30174490672647]
名前付きエンティティ認識(NER)は自然言語処理の基本課題である。
最近の研究は、名前付きエンティティ認識を読み取り理解タスクとして扱い、エンティティを抽出するためにタイプ固有のクエリを手動で構築している。
本稿では,グローバルかつ学習可能なインスタンスクエリを並列に抽出するParallel Instance Query Network (PIQN)を提案する。
論文 参考訳(メタデータ) (2022-03-20T13:01:25Z) - MuVER: Improving First-Stage Entity Retrieval with Multi-View Entity
Representations [28.28940043641958]
本稿では,エンティティ記述のためのマルチビュー表現を構築し,検索手法による参照に対する最適ビューを近似する,エンティティ検索のための新しいアプローチを提案する。
提案手法は,ZESHELにおける最先端性能を実現し,標準エンティティリンクデータセットの候補の品質を向上させる。
論文 参考訳(メタデータ) (2021-09-13T05:51:45Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。