論文の概要: WIKIGENBENCH: Exploring Full-length Wikipedia Generation under Real-World Scenario
- arxiv url: http://arxiv.org/abs/2402.18264v2
- Date: Tue, 17 Dec 2024 09:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 17:09:38.055604
- Title: WIKIGENBENCH: Exploring Full-length Wikipedia Generation under Real-World Scenario
- Title(参考訳): WIKIGENBENCH: 実世界シナリオ下での完全なウィキペディア生成の探索
- Authors: Jiebin Zhang, Eugene J. Yu, Qinyu Chen, Chenhao Xiong, Dawei Zhu, Han Qian, Mingbo Song, Weimin Xiong, Xiaoguang Li, Qun Liu, Sujian Li,
- Abstract要約: WIKIGENBENCHは、1,320のエントリからなる新しいベンチマークである。
そこで我々は,Web ソースからの入力文書を用いて,新しいイベントに対して,構造化された完全長のウィキペディア記事が引用される現実世界のシナリオを探索する。
評価には、実世界のシナリオに適合する妥当性、組織、その他の側面を評価するために、体系的なメトリクスとLLMベースのメトリクスを統合する。
- 参考スコア(独自算出の注目度): 32.28150998156827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It presents significant challenges to generate comprehensive and accurate Wikipedia articles for newly emerging events under a real-world scenario. Existing attempts fall short either by focusing only on short snippets or by using metrics that are insufficient to evaluate real-world scenarios. In this paper, we construct WIKIGENBENCH, a new benchmark consisting of 1,320 entries, designed to align with real-world scenarios in both generation and evaluation. For generation, we explore a real-world scenario where structured, full-length Wikipedia articles with citations are generated for new events using input documents from web sources. For evaluation, we integrate systematic metrics and LLM-based metrics to assess the verifiability, organization, and other aspects aligned with real-world scenarios. Based on this benchmark, we conduct extensive experiments using various models within three commonly used frameworks: direct RAG, hierarchical structure-based RAG, and RAG with a fine-tuned generation model. Experimental results show that hierarchical-based methods can generate more comprehensive content, while fine-tuned methods achieve better verifiability. However, even the best methods still show a significant gap compared to existing Wikipedia content, indicating that further research is necessary.
- Abstract(参考訳): 現実のシナリオの下で、新しいイベントのための包括的で正確なウィキペディア記事を生成するための重要な課題を提示している。
既存の試みは、短いスニペットのみに焦点を当てるか、現実のシナリオを評価するのに不十分なメトリクスを使用することで失敗する。
本稿では,1,320個のエントリからなる新しいベンチマークであるWIKIGENBENCHを構築し,生成と評価の両方において現実のシナリオと整合するように設計された。
そこで我々は,Web ソースからの入力文書を用いて,新しいイベントに対して,構造化された完全長のウィキペディア記事が引用される現実世界のシナリオを探索する。
評価には、実世界のシナリオに適合する妥当性、組織、その他の側面を評価するために、体系的なメトリクスとLLMベースのメトリクスを統合する。
本ベンチマークでは, 直接RAG, 階層構造に基づくRAG, 微調整された生成モデルを用いたRAGの3つのフレームワークにおいて, 様々なモデルを用いた広範囲な実験を行った。
実験結果から,階層型手法はより包括的コンテンツを生成できることがわかった。
しかし、最良の方法でさえも、既存のウィキペディアのコンテンツに比べて大きなギャップを示しており、さらなる研究が必要であることを示している。
関連論文リスト
- Consistency Evaluation of News Article Summaries Generated by Large (and Small) Language Models [0.0]
大言語モデル (LLMs) は、流動的な抽象的な要約を生成することを約束しているが、ソーステキストに基づかない幻覚的な詳細を生成することができる。
本稿では,TextRank,BART,Mistral-7B-Instruct,OpenAI GPT-3.5-Turboなど,さまざまな手法を用いてテキスト要約の探索を行う。
XL-Sumデータセットでテストすると,すべての要約モデルが一貫した要約を生成することがわかった。
論文 参考訳(メタデータ) (2025-02-28T01:58:17Z) - Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。
提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。
重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文 参考訳(メタデータ) (2025-01-28T16:03:52Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits [92.62157408704594]
HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
論文 参考訳(メタデータ) (2024-06-05T16:25:57Z) - Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval [21.262531222066208]
本稿では,ウィキペディアの構造的知識に基づいて,情報検索タスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法はトレーニングコーパスにおける意味的知識をよりよく捉えることができる。
生物医学・法学領域における実験結果から,本手法は垂直領域において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-12-17T09:31:47Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Zero-Shot On-the-Fly Event Schema Induction [61.91468909200566]
本稿では,大規模な言語モデルを用いて,高レベルなイベント定義,特定のイベント,引数,それらの関係を予測・付与するソースドキュメントを生成する手法を提案する。
我々のモデルを用いて、任意のトピックに関する完全なスキーマを、手動のデータ収集、すなわちゼロショットの方法で、オンザフライで生成することができる。
論文 参考訳(メタデータ) (2022-10-12T14:37:00Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global
Context [25.3472693740778]
埋め込みベースの手法は、教師なしキーフレーズ抽出(UKE)タスクに広く用いられている。
本稿では,地域とグローバルのコンテキストを共同でモデル化するUKEの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:41:10Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - WEC: Deriving a Large-scale Cross-document Event Coreference dataset
from Wikipedia [14.324743524196874]
本稿では,ウィキペディアからのクロスドキュメントイベントコアスのための大規模データセット収集のための効率的な手法であるウィキペディアイベントコアス(WEC)を提案する。
この手法を英語ウィキペディアに適用し,大規模wec-engデータセットを抽出する。
我々は,ドキュメント内コリファレンス解決のために最先端モデルのコンポーネントをクロスドキュメント設定に適応させるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-04-11T14:54:35Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。