論文の概要: Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14207v2
- Date: Mon, 8 Apr 2024 05:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:06:46.008239
- Title: Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
- Title(参考訳): 大規模言語モデルによるスクラッチからウィキペディア的な記事を書く支援
- Authors: Yijia Shao, Yucheng Jiang, Theodore A. Kanell, Peter Xu, Omar Khattab, Monica S. Lam,
- Abstract要約: 我々は、大きな言語モデルを用いて、ウィキペディアのページに匹敵する幅と深さの長い記事をスクラッチから書く方法を研究した。
本稿では,検索と複数パースペクティブ質問応答によるトピックアウトライン生成のための記述システムSTORMを提案する。
- 参考スコア(独自算出の注目度): 11.597314728459573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to apply large language models to write grounded and organized long-form articles from scratch, with comparable breadth and depth to Wikipedia pages. This underexplored problem poses new challenges at the pre-writing stage, including how to research the topic and prepare an outline prior to writing. We propose STORM, a writing system for the Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking. STORM models the pre-writing stage by (1) discovering diverse perspectives in researching the given topic, (2) simulating conversations where writers carrying different perspectives pose questions to a topic expert grounded on trusted Internet sources, (3) curating the collected information to create an outline. For evaluation, we curate FreshWiki, a dataset of recent high-quality Wikipedia articles, and formulate outline assessments to evaluate the pre-writing stage. We further gather feedback from experienced Wikipedia editors. Compared to articles generated by an outline-driven retrieval-augmented baseline, more of STORM's articles are deemed to be organized (by a 25% absolute increase) and broad in coverage (by 10%). The expert feedback also helps identify new challenges for generating grounded long articles, such as source bias transfer and over-association of unrelated facts.
- Abstract(参考訳): 我々は、大きな言語モデルを用いて、ウィキペディアのページに匹敵する幅と深さの長い記事をスクラッチから書く方法を研究した。
この未調査の問題は、トピックを調査し、記事を書く前にアウトラインを準備する方法を含む、事前記述の段階で新たな課題を引き起こします。
本稿では,検索と複数パースペクティブ質問応答によるトピックアウトライン生成のための記述システムSTORMを提案する。
STORM は,(1) 対象トピックの研究における多様な視点の発見,(2) 信頼されたインターネットソースを基盤としたトピックエキスパートに異なる視点の著者が質問を行う会話のシミュレート,(3) 収集した情報をキュレートしてアウトラインを作成することによって,事前記述段階をモデル化する。
評価のために、最近の高品質ウィキペディア記事のデータセットであるFreshWikiをキュレートし、事前作成段階を評価するためのアウトラインアセスメントを定式化する。
経験豊富なウィキペディア編集者からのフィードバックも集める。
アウトライン駆動の検索強化ベースラインで生成された記事と比較して、STORMの記事は(25%の絶対的な増加によって)組織化され、カバー範囲が広くなり(10%)、より広くなっています。
専門家のフィードバックは、ソースバイアス転送や非関連事実の過剰関連など、根拠のない長い記事を生成する上での新たな課題の特定にも役立ちます。
関連論文リスト
- CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions [7.503795054002406]
本稿では,学術論文の執筆過程の改訂段階について,原文資料を提案する。
この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。
論文 参考訳(メタデータ) (2024-03-01T03:07:32Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - NEWTS: A Corpus for News Topic-Focused Summarization [9.872518517174498]
本稿では,CNN/Dailymailデータセットに基づく最初の話題要約コーパスを提案する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-05-31T10:01:38Z) - Generating Full Length Wikipedia Biographies: The Impact of Gender Bias
on the Retrieval-Based Generation of Women Biographies [22.842874899794996]
本研究では,Web上の関連情報を特定するための検索機構を用いた英語テキストのモデルを開発する。
キャッシュベースの事前学習エンコーダデコーダを用いて、引用情報を含む長文の伝記部を生成する。
生成したテキストを分析し、利用可能なWebエビデンスデータの相違が生成に与える影響を理解する。
論文 参考訳(メタデータ) (2022-04-12T15:16:57Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。