論文の概要: Retrieval-based Full-length Wikipedia Generation for Emergent Events
- arxiv url: http://arxiv.org/abs/2402.18264v1
- Date: Wed, 28 Feb 2024 11:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:16:10.754557
- Title: Retrieval-based Full-length Wikipedia Generation for Emergent Events
- Title(参考訳): 創発イベントの検索に基づく完全長wikipedia生成
- Authors: Jiebin Zhang and Eugene J. Yu and Qinyu Chen and Chenhao Xiong and
Dawei Zhu and Han Qian and Mingbo Song and Xiaoguang Li and Qun Liu and
Sujian Li
- Abstract要約: 我々は、Webソースから取得した入力を用いて、創発的なイベントに対して構造化されたフル長のウィキペディア文書を生成する現実世界のシナリオをシミュレートする。
大規模言語モデル(LLM)が最近発生したイベントに関連するコーパスでトレーニングされないことを保証するため、最近発生したイベントを選択し、新しいベンチマークWiki-GenBenを導入する。
本研究は,LLMの実際の全長ウィキペディア文書作成能力を評価するために,体系的評価指標と基準手法の総合的なセットを設計する。
- 参考スコア(独自算出の注目度): 33.81630908675804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's fast-paced world, the growing demand to quickly generate
comprehensive and accurate Wikipedia documents for emerging events is both
crucial and challenging. However, previous efforts in Wikipedia generation have
often fallen short of meeting real-world requirements. Some approaches focus
solely on generating segments of a complete Wikipedia document, while others
overlook the importance of faithfulness in generation or fail to consider the
influence of the pre-training corpus. In this paper, we simulate a real-world
scenario where structured full-length Wikipedia documents are generated for
emergent events using input retrieved from web sources. To ensure that Large
Language Models (LLMs) are not trained on corpora related to recently occurred
events, we select events that have taken place recently and introduce a new
benchmark Wiki-GenBen, which consists of 309 events paired with their
corresponding retrieved web pages for generating evidence. Additionally, we
design a comprehensive set of systematic evaluation metrics and baseline
methods, to evaluate the capability of LLMs in generating factual full-length
Wikipedia documents. The data and code are open-sourced at WikiGenBench.
- Abstract(参考訳): 今日の急成長の世界では、新興イベントのための包括的な正確なウィキペディア文書を迅速に作成する需要が高まっています。
しかし、ウィキペディア生成における以前の取り組みは、しばしば現実世界の要求を満たすには至らなかった。
一部のアプローチは、完全なウィキペディア文書のセグメントを生成することだけに重点を置いているが、他のアプローチは、生成における忠実さの重要性を見落としている。
本稿では, web ソースから取得した入力を用いて,創発イベントに対して構造化された wikipedia ドキュメントが生成される実世界のシナリオをシミュレートする。
大規模言語モデル(llm)が最近発生したイベントに関連するコーパスで訓練されていないことを保証するため、最近発生したイベントを選択し、検索されたwebページと組み合わせた309のイベントからなる新しいベンチマークwiki-genbenを導入する。
さらに,本研究では,体系的な評価指標とベースライン手法を総合的に設計し,実際の全長ウィキペディア文書作成におけるLLMの能力を評価する。
データとコードはWikiGenBenchでオープンソース化されている。
関連論文リスト
- HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits [92.62157408704594]
HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
論文 参考訳(メタデータ) (2024-06-05T16:25:57Z) - Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval [21.262531222066208]
本稿では,ウィキペディアの構造的知識に基づいて,情報検索タスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法はトレーニングコーパスにおける意味的知識をよりよく捉えることができる。
生物医学・法学領域における実験結果から,本手法は垂直領域において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-12-17T09:31:47Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Zero-Shot On-the-Fly Event Schema Induction [61.91468909200566]
本稿では,大規模な言語モデルを用いて,高レベルなイベント定義,特定のイベント,引数,それらの関係を予測・付与するソースドキュメントを生成する手法を提案する。
我々のモデルを用いて、任意のトピックに関する完全なスキーマを、手動のデータ収集、すなわちゼロショットの方法で、オンザフライで生成することができる。
論文 参考訳(メタデータ) (2022-10-12T14:37:00Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - WEC: Deriving a Large-scale Cross-document Event Coreference dataset
from Wikipedia [14.324743524196874]
本稿では,ウィキペディアからのクロスドキュメントイベントコアスのための大規模データセット収集のための効率的な手法であるウィキペディアイベントコアス(WEC)を提案する。
この手法を英語ウィキペディアに適用し,大規模wec-engデータセットを抽出する。
我々は,ドキュメント内コリファレンス解決のために最先端モデルのコンポーネントをクロスドキュメント設定に適応させるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-04-11T14:54:35Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。