論文の概要: DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity
Descriptions
- arxiv url: http://arxiv.org/abs/2106.05365v1
- Date: Wed, 9 Jun 2021 20:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 01:04:21.077288
- Title: DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity
Descriptions
- Title(参考訳): DESCGEN: 抽象エンティティ記述を生成するための遠隔監視データセット
- Authors: Weijia Shi, Mandar Joshi, Luke Zettlemoyer
- Abstract要約: 複数のドキュメントにまたがる言及を考えると、目的はエンティティの要約記述を生成することである。
DESCGENはWikipediaとFandomの37Kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書が組み合わされている。
結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。
- 参考スコア(独自算出の注目度): 41.80938919728834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short textual descriptions of entities provide summaries of their key
attributes and have been shown to be useful sources of background knowledge for
tasks such as entity linking and question answering. However, generating entity
descriptions, especially for new and long-tail entities, can be challenging
since relevant information is often scattered across multiple sources with
varied content and style. We introduce DESCGEN: given mentions spread over
multiple documents, the goal is to generate an entity summary description.
DESCGEN consists of 37K entity descriptions from Wikipedia and Fandom, each
paired with nine evidence documents on average. The documents were collected
using a combination of entity linking and hyperlinks to the Wikipedia and
Fandom entity pages, which together provide high-quality distant supervision.
The resulting summaries are more abstractive than those found in existing
datasets and provide a better proxy for the challenge of describing new and
emerging entities. We also propose a two-stage extract-then-generate baseline
and show that there exists a large gap (19.9% in ROUGE-L) between
state-of-the-art models and human performance, suggesting that the data will
support significant future work.
- Abstract(参考訳): エンティティの短いテキスト記述は、キー属性の要約を提供し、エンティティリンクや質問応答といったタスクの背景知識の有用な情報源であることが示されている。
しかし,内容やスタイルが異なる複数のソースに関連情報が散在することが多いため,エンティティ記述の生成は,特に新しいロングテールエンティティに対しては困難である。
descgenを紹介する: 複数のドキュメントにまたがる言及を考えると、目標はエンティティの概要記述を生成することです。
descgenはwikipediaとfandomの37kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書がある。
ドキュメントはwikipediaとfandomエンティティページへのエンティティリンクとハイパーリンクの組み合わせを使って収集され、高品質な遠隔監視を提供する。
結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。
また,2段階の抽出-then-generateベースラインを提案し,最先端モデルと人間のパフォーマンスの間に大きなギャップ(ルージュlの19.9%)があることを示し,そのデータが将来の大きな作業をサポートすることを示唆する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Wiki Entity Summarization Benchmark [9.25319552487389]
エンティティの要約は知識グラフにおけるエンティティの簡潔な要約を計算することを目的としている。
既存のデータセットとベンチマークは、しばしば数百のエンティティに制限される。
我々は、エンティティ、要約、およびそれらの接続からなる包括的なベンチマークであるWikESを提案する。
論文 参考訳(メタデータ) (2024-06-12T17:22:00Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - ReFinED: An Efficient Zero-shot-capable Approach to End-to-End Entity
Linking [5.382800665115746]
ReFinEDは効率的なエンドツーエンドのエンティティリンクモデルである。
単一のフォワードパスで、ドキュメント内のすべての参照に対して、参照検出、きめ細かいエンティティタイピング、エンティティの曖昧さを実行する。
標準エンティティリンクデータセットの最先端パフォーマンスを平均3.7 F1で上回る。
論文 参考訳(メタデータ) (2022-07-08T19:20:42Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。