論文の概要: DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities
- arxiv url: http://arxiv.org/abs/2410.07722v2
- Date: Tue, 15 Oct 2024 19:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:33:10.593396
- Title: DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities
- Title(参考訳): DyVo: エンティティを持つ学習されたスパース検索のための動的語彙
- Authors: Thong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton, Andrew Yates,
- Abstract要約: 学習されたスパース検索(LSR)モデルをウィキペディアの概念と実体で拡張する。
3つのエンティティリッチなドキュメントランキングデータセットを対象とした実験では、結果のDyVoモデルは、最先端のベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 29.716152560414738
- License:
- Abstract: Learned Sparse Retrieval (LSR) models use vocabularies from pre-trained transformers, which often split entities into nonsensical fragments. Splitting entities can reduce retrieval accuracy and limits the model's ability to incorporate up-to-date world knowledge not included in the training data. In this work, we enhance the LSR vocabulary with Wikipedia concepts and entities, enabling the model to resolve ambiguities more effectively and stay current with evolving knowledge. Central to our approach is a Dynamic Vocabulary (DyVo) head, which leverages existing entity embeddings and an entity retrieval component that identifies entities relevant to a query or document. We use the DyVo head to generate entity weights, which are then merged with word piece weights to create joint representations for efficient indexing and retrieval using an inverted index. In experiments across three entity-rich document ranking datasets, the resulting DyVo model substantially outperforms state-of-the-art baselines.
- Abstract(参考訳): 学習されたスパース検索(LSR)モデルは、事前訓練されたトランスフォーマーの語彙を使用し、しばしばエンティティを非意味な断片に分割する。
分割エンティティは、検索精度を低下させ、トレーニングデータに含まれない最新世界の知識を組み込む能力を制限することができる。
本研究では、ウィキペディアの概念や実体によってLSR語彙を強化し、曖昧さをより効果的に解決し、進化する知識を最新に保ちます。
アプローチの中心は動的語彙(DyVo)ヘッダで、既存のエンティティの埋め込みと、クエリやドキュメントに関連するエンティティを識別するエンティティ検索コンポーネントを活用しています。
我々は、DyVoヘッドを用いてエンティティウェイトを生成し、ワードピースウェイトとマージして、効率的なインデックス作成と、逆インデックスを用いた検索のための共同表現を生成する。
3つのエンティティリッチなドキュメントランキングデータセットを対象とした実験では、結果のDyVoモデルは、最先端のベースラインを大幅に上回る。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Retrieval-Enhanced Named Entity Recognition [1.2187048691454239]
RENERは、In-Context Learningと情報検索技術に基づく自己回帰言語モデルを用いたエンティティ認識手法である。
実験の結果,CrossNERコレクションでは,提案手法を用いて最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-17T01:12:48Z) - DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model [16.20833396645551]
本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。
知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。
論文 参考訳(メタデータ) (2024-06-27T15:18:23Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Improving Entity Linking through Semantic Reinforced Entity Embeddings [16.868791358905916]
そこで本稿では, コンテキスト共通性の学習を容易にするため, 実体埋め込みに微粒な意味情報を注入する手法を提案する。
エンティティの埋め込みに基づいて、エンティティリンクにおける最先端のパフォーマンスを新たに達成しました。
論文 参考訳(メタデータ) (2021-06-16T00:27:56Z) - Interpretable and Low-Resource Entity Matching via Decoupling Feature
Learning from Decision Making [22.755892575582788]
Entity Matchingは、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。
異種情報融合(HIF)とキー属性ツリー(KAT)誘導からなる新しいEMフレームワークを提案する。
提案手法は効率が高く,ほとんどの場合SOTA EMモデルより優れている。
論文 参考訳(メタデータ) (2021-06-08T08:27:31Z) - LUKE: Deep Contextualized Entity Representations with Entity-aware
Self-attention [37.111204321059084]
両方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。
我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。
また,変換器の自己認識機構の拡張である自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-02T15:38:03Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。