論文の概要: NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings
- arxiv url: http://arxiv.org/abs/2509.04011v1
- Date: Thu, 04 Sep 2025 08:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.105688
- Title: NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings
- Title(参考訳): NER Retriever: 型認識の埋め込みを備えたZero-Shot名前付きエンティティ検索
- Authors: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman,
- Abstract要約: アドホックな名前付きエンティティ検索のためのゼロショット検索フレームワークであるNER Retrieverを提案する。
固定スキーマや微調整モデルに頼る代わりに、我々の手法は大きな言語モデルの内部表現に基づいている。
本研究では、内部表現、特に中間層トランスブロックの値が、一般的に使用されるトップ層埋め込みよりもより効果的に、きめ細かい型情報をエンコードしていることを示す。
- 参考スコア(独自算出の注目度): 22.99473179665451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NER Retriever, a zero-shot retrieval framework for ad-hoc Named Entity Retrieval, a variant of Named Entity Recognition (NER), where the types of interest are not provided in advance, and a user-defined type description is used to retrieve documents mentioning entities of that type. Instead of relying on fixed schemas or fine-tuned models, our method builds on internal representations of large language models (LLMs) to embed both entity mentions and user-provided open-ended type descriptions into a shared semantic space. We show that internal representations, specifically the value vectors from mid-layer transformer blocks, encode fine-grained type information more effectively than commonly used top-layer embeddings. To refine these representations, we train a lightweight contrastive projection network that aligns type-compatible entities while separating unrelated types. The resulting entity embeddings are compact, type-aware, and well-suited for nearest-neighbor search. Evaluated on three benchmarks, NER Retriever significantly outperforms both lexical and dense sentence-level retrieval baselines. Our findings provide empirical support for representation selection within LLMs and demonstrate a practical solution for scalable, schema-free entity retrieval. The NER Retriever Codebase is publicly available at https://github.com/ShacharOr100/ner_retriever
- Abstract(参考訳): 提案するNER Retrieverはアドホックな名前付きエンティティ検索のためのゼロショット検索フレームワークであり,興味のタイプが事前に提供されていない名前付きエンティティ認識(NER)の変種であり,そのタイプのエンティティを記述した文書をユーザ定義型記述を用いて検索する。
我々のメソッドは、固定スキーマや微調整モデルに頼るのではなく、大きな言語モデル(LLM)の内部表現に基づいて、エンティティ参照とユーザが提供するオープンな型記述の両方を共有セマンティック空間に埋め込む。
本研究では、内部表現、特に中間層トランスブロックの値ベクトルが、一般的に使用されるトップ層埋め込みよりもより効率的に、きめ細かい型情報をエンコードしていることを示す。
これらの表現を洗練させるために、非関係な型を分離しながら、型互換エンティティを整列する軽量コントラストプロジェクションネットワークを訓練する。
結果として得られるエンティティの埋め込みはコンパクトで型認識であり、最寄りの検索に適している。
NER Retrieverは3つのベンチマークで評価され、語彙的および密度の高い文レベルの検索ベースラインを著しく上回っている。
本研究は,LLM内の表現選択を実証的に支援し,拡張性のあるスキーマフリーなエンティティ検索のための実用的なソリューションを実証する。
NER Retriever Codebaseはhttps://github.com/ShacharOr100/ner_retrieverで公開されている。
関連論文リスト
- Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Large-Scale Label Interpretation Learning for Few-Shot Named Entity Recognition [5.262708162539423]
名前付きエンティティ認識(NER)は、わずかな例だけでテキスト内の名前付きエンティティを検出する。
有望な研究の1つの行は、各エンティティタイプの自然言語記述を活用することである。
本稿では,新しい実体型の言語化を解釈する前に,強い意味が与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T08:22:44Z) - PromptNER: A Prompting Method for Few-shot Named Entity Recognition via
k Nearest Neighbor Search [56.81939214465558]
本稿では,近距離探索による数発NERの新規プロンプト法であるPromptNERを提案する。
我々は、エンティティカテゴリ情報を含むプロンプトを使用してラベルのプロトタイプを構築する。
Few-NERDデータセットとCrossNERデータセットの広範な実験により,本モデルが最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-05-20T15:47:59Z) - Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations [20.00016240535205]
ほとんどの弱教師付きエンティティ認識モデルは、専門家によって提供されるドメイン固有の辞書に依存している。
高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。
論文 参考訳(メタデータ) (2022-10-14T07:36:44Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。