Fugu-MT 論文翻訳(概要): DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity Descriptions

論文の概要: DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity Descriptions

arxiv url: http://arxiv.org/abs/2106.05365v1
Date: Wed, 9 Jun 2021 20:10:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-13 01:04:21.077288
Title: DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity Descriptions
Title（参考訳）: DESCGEN: 抽象エンティティ記述を生成するための遠隔監視データセット
Authors: Weijia Shi, Mandar Joshi, Luke Zettlemoyer
Abstract要約: 複数のドキュメントにまたがる言及を考えると、目的はエンティティの要約記述を生成することである。 DESCGENはWikipediaとFandomの37Kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書が組み合わされている。結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。
参考スコア（独自算出の注目度）: 41.80938919728834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Short textual descriptions of entities provide summaries of their key attributes and have been shown to be useful sources of background knowledge for tasks such as entity linking and question answering. However, generating entity descriptions, especially for new and long-tail entities, can be challenging since relevant information is often scattered across multiple sources with varied content and style. We introduce DESCGEN: given mentions spread over multiple documents, the goal is to generate an entity summary description. DESCGEN consists of 37K entity descriptions from Wikipedia and Fandom, each paired with nine evidence documents on average. The documents were collected using a combination of entity linking and hyperlinks to the Wikipedia and Fandom entity pages, which together provide high-quality distant supervision. The resulting summaries are more abstractive than those found in existing datasets and provide a better proxy for the challenge of describing new and emerging entities. We also propose a two-stage extract-then-generate baseline and show that there exists a large gap (19.9% in ROUGE-L) between state-of-the-art models and human performance, suggesting that the data will support significant future work.
Abstract（参考訳）: エンティティの短いテキスト記述は、キー属性の要約を提供し、エンティティリンクや質問応答といったタスクの背景知識の有用な情報源であることが示されている。しかし,内容やスタイルが異なる複数のソースに関連情報が散在することが多いため,エンティティ記述の生成は,特に新しいロングテールエンティティに対しては困難である。 descgenを紹介する: 複数のドキュメントにまたがる言及を考えると、目標はエンティティの概要記述を生成することです。 descgenはwikipediaとfandomの37kのエンティティ記述で構成されており、それぞれに平均9つの証拠文書がある。ドキュメントはwikipediaとfandomエンティティページへのエンティティリンクとハイパーリンクの組み合わせを使って収集され、高品質な遠隔監視を提供する。結果として得られる要約は、既存のデータセットよりも抽象的で、新しいエンティティや新興エンティティを記述する上での課題に対して、より優れたプロキシを提供する。また,2段階の抽出-then-generateベースラインを提案し,最先端モデルと人間のパフォーマンスの間に大きなギャップ(ルージュlの19.9%)があることを示し,そのデータが将来の大きな作業をサポートすることを示唆する。

関連論文リスト

Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Wiki Entity Summarization Benchmark [9.25319552487389]
エンティティの要約は知識グラフにおけるエンティティの簡潔な要約を計算することを目的としている。既存のデータセットとベンチマークは、しばしば数百のエンティティに制限される。我々は、エンティティ、要約、およびそれらの接続からなる包括的なベンチマークであるWikESを提案する。
論文参考訳（メタデータ） (2024-06-12T17:22:00Z)
Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文参考訳（メタデータ） (2024-03-04T03:21:40Z)
AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes [46.67148487519558]
属性対応マルチモーダルエンティティリンクを提案する。入力は、テキスト段落と画像で記述された言及からなる。目標は、マルチモーダルな知識ベースから対応する対象エンティティを予測することである。
論文参考訳（メタデータ） (2023-05-24T05:01:48Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
The Fellowship of the Authors: Disambiguating Names from Social Network Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。 BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2022-08-31T21:51:55Z)
ReFinED: An Efficient Zero-shot-capable Approach to End-to-End Entity Linking [5.382800665115746]
ReFinEDは効率的なエンドツーエンドのエンティティリンクモデルである。単一のフォワードパスで、ドキュメント内のすべての参照に対して、参照検出、きめ細かいエンティティタイピング、エンティティの曖昧さを実行する。標準エンティティリンクデータセットの最先端パフォーマンスを平均3.7 F1で上回る。
論文参考訳（メタデータ） (2022-07-08T19:20:42Z)
On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文参考訳（メタデータ） (2020-12-28T08:10:28Z)
Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文参考訳（メタデータ） (2020-05-20T13:39:47Z)
ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文参考訳（メタデータ） (2020-04-30T14:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。