論文の概要: Surfer100: Generating Surveys From Web Resources on Wikipedia-style
- arxiv url: http://arxiv.org/abs/2112.06377v1
- Date: Mon, 13 Dec 2021 02:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 06:05:28.087333
- Title: Surfer100: Generating Surveys From Web Resources on Wikipedia-style
- Title(参考訳): Surfer100:ウィキペディア形式のWebリソースからサーベイを生成する
- Authors: Irene Li, Alexander Fabbri, Rina Kawamura, Yixin Liu, Xiangru Tang,
Jaesung Tae, Chang Shen, Sally Ma, Tomoe Mizutani, Dragomir Radev
- Abstract要約: 先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
- 参考スコア(独自算出の注目度): 49.23675182917996
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Fast-developing fields such as Artificial Intelligence (AI) often outpace the
efforts of encyclopedic sources such as Wikipedia, which either do not
completely cover recently-introduced topics or lack such content entirely. As a
result, methods for automatically producing content are valuable tools to
address this information overload. We show that recent advances in pretrained
language modeling can be combined for a two-stage extractive and abstractive
approach for Wikipedia lead paragraph generation. We extend this approach to
generate longer Wikipedia-style summaries with sections and examine how such
methods struggle in this application through detailed studies with 100
reference human-collected surveys. This is the first study on utilizing web
resources for long Wikipedia-style summaries to the best of our knowledge.
- Abstract(参考訳): 人工知能(AI)のような高速開発分野は、最近紹介されたトピックを完全にカバーしていないWikipediaのような百科事典ソースの取り組みよりも優れていることが多い。
その結果、コンテンツの自動生成方法は、この情報過負荷に対処するための貴重なツールである。
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
長いウィキペディアスタイルの要約にwebリソースを活用して、私たちの知識を最大限に活用する最初の研究です。
関連論文リスト
- Retrieval-based Full-length Wikipedia Generation for Emergent Events [33.81630908675804]
我々は、Webソースから取得した入力を用いて、創発的なイベントに対して構造化されたフル長のウィキペディア文書を生成する現実世界のシナリオをシミュレートする。
大規模言語モデル(LLM)が最近発生したイベントに関連するコーパスでトレーニングされないことを保証するため、最近発生したイベントを選択し、新しいベンチマークWiki-GenBenを導入する。
本研究は,LLMの実際の全長ウィキペディア文書作成能力を評価するために,体系的評価指標と基準手法の総合的なセットを設計する。
論文 参考訳(メタデータ) (2024-02-28T11:51:56Z) - Curious Rhythms: Temporal Regularities of Wikipedia Consumption [15.686850035802667]
日中交替のグローバルなパターンを除去した後も,個々の物品の消費習慣は日中変化が強く維持されていることを示す。
我々はウィキペディアの記事のアクセスリズムの話題的・文脈的相関を調査し、記事の話題、読者国、アクセスデバイス(モバイル対デスクトップ)が日々の注意パターンの重要な予測因子であることを示す。
論文 参考訳(メタデータ) (2023-05-16T14:48:08Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Embedding Knowledge for Document Summarization: A Survey [66.76415502727802]
従来の研究は、知識を組み込んだ文書要約器が優れた消化器を生成するのに優れていたことを証明した。
本稿では,文書要約ビューに基づいて,知識と知識の埋め込みを再カプセル化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-24T04:36:07Z) - Tracking Knowledge Propagation Across Wikipedia Languages [1.8447697408534176]
本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T18:36:13Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。