論文の概要: AmbigDocs: Reasoning across Documents on Different Entities under the Same Name
- arxiv url: http://arxiv.org/abs/2404.12447v2
- Date: Sun, 26 May 2024 14:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:57:17.646885
- Title: AmbigDocs: Reasoning across Documents on Different Entities under the Same Name
- Title(参考訳): AmbigDocs: 同じ名前で異なるエンティティに関するドキュメントをまたぐ推論
- Authors: Yoonsang Lee, Xi Ye, Eunsol Choi,
- Abstract要約: 混乱したエンティティの言及を扱うことは、言語モデル(LM)にとって重要なスキルである。
この機能をテストするために、新しいベンチマークであるAmbigDocsを導入しました。
あいまいな名前とそれに対応する答えの集合を含む質問を生成する。
- 参考スコア(独自算出の注目度): 46.33718186200757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different entities with the same name can be difficult to distinguish. Handling confusing entity mentions is a crucial skill for language models (LMs). For example, given the question "Where was Michael Jordan educated?" and a set of documents discussing different people named Michael Jordan, can LMs distinguish entity mentions to generate a cohesive answer to the question? To test this ability, we introduce a new benchmark, AmbigDocs. By leveraging Wikipedia's disambiguation pages, we identify a set of documents, belonging to different entities who share an ambiguous name. From these documents, we generate questions containing an ambiguous name and their corresponding sets of answers. Our analysis reveals that current state-of-the-art models often yield ambiguous answers or incorrectly merge information belonging to different entities. We establish an ontology categorizing four types of incomplete answers and automatic evaluation metrics to identify such categories. We lay the foundation for future work on reasoning across multiple documents with ambiguous entities.
- Abstract(参考訳): 同じ名前の異なるエンティティを区別することは困難である。
混乱したエンティティの言及を扱うことは、言語モデル(LM)にとって重要なスキルです。
例えば、「マイケル・ジョーダンはどこで教育を受けたのか?」という問いや、マイケル・ジョーダンという名前の異なる人々について議論する一連の文書を考えると、LMはエンティティの言及を区別して、この質問に対する結束的な回答を生成することができるだろうか?
この能力をテストするために、新しいベンチマークであるAmbigDocsを導入しました。
ウィキペディアの曖昧なページを利用して、曖昧な名前を共有する異なるエンティティに属する文書の集合を識別する。
これらの文書から、あいまいな名前とそれに対応する答えの集合を含む質問を生成する。
我々の分析によると、現在の最先端モデルは、しばしば曖昧な答えや、異なるエンティティに属する情報を誤ってマージする。
我々は,4種類の不完全な回答と自動評価指標を分類し,それらのカテゴリを同定するオントロジーを確立する。
我々は、曖昧なエンティティを持つ複数のドキュメントをまたがる推論に関する将来の研究の基礎を築いた。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Different Tastes of Entities: Investigating Human Label Variation in
Named Entity Annotations [23.059491714512077]
本稿では,3言語(英語,デンマーク語,バイエルン語)のエキスパートアノテーション付きエンティティデータセットの相違について検討する。
テキストのあいまいさと人為的ガイドラインの変更が,高品質なリビジョンにおける多彩なアノテーションの主要な要因であることを示す。
論文 参考訳(メタデータ) (2024-02-02T14:08:34Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Parallel Instance Query Network for Named Entity Recognition [73.30174490672647]
名前付きエンティティ認識(NER)は自然言語処理の基本課題である。
最近の研究は、名前付きエンティティ認識を読み取り理解タスクとして扱い、エンティティを抽出するためにタイプ固有のクエリを手動で構築している。
本稿では,グローバルかつ学習可能なインスタンスクエリを並列に抽出するParallel Instance Query Network (PIQN)を提案する。
論文 参考訳(メタデータ) (2022-03-20T13:01:25Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z) - Joint Embedding in Named Entity Linking on Sentence Level [30.229263131244906]
知識グラフから学習した関係を最大化することにより,新しい統合埋め込み手法を提案する。
文レベルで参照エンティティをリンクする方法に重点を置いており、文書内の同じ参照の異なる出現によって生じるノイズを低減する。
論文 参考訳(メタデータ) (2020-02-12T12:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。