論文の概要: PLSUM: Generating PT-BR Wikipedia by Summarizing Multiple Websites
- arxiv url: http://arxiv.org/abs/2112.01591v1
- Date: Thu, 2 Dec 2021 20:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:30:37.672023
- Title: PLSUM: Generating PT-BR Wikipedia by Summarizing Multiple Websites
- Title(参考訳): PLSUM: 複数のウェブサイトを要約してPT-BRウィキペディアを生成する
- Authors: Andr\'e Seidel Oliveira, Anna Helena Reali Costa
- Abstract要約: PLSumは、複数のWebサイトからwikiのような抽象的な要約を生成するためのフレームワークである。
我々は、Transformer Neural Network、PTT5、Longformerの2つの最近のバリエーションを比較した。
その結果,ブラジルポルトガル語のWebコンテンツから意味ある抽象的な要約を生成することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 13.021014899410684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wikipedia is an important free source of intelligible knowledge. Despite
that, Brazilian Portuguese Wikipedia still lacks descriptions for many
subjects. In an effort to expand the Brazilian Wikipedia, we contribute PLSum,
a framework for generating wiki-like abstractive summaries from multiple
descriptive websites. The framework has an extractive stage followed by an
abstractive one. In particular, for the abstractive stage, we fine-tune and
compare two recent variations of the Transformer neural network, PTT5, and
Longformer. To fine-tune and evaluate the model, we created a dataset with
thousands of examples, linking reference websites to Wikipedia. Our results
show that it is possible to generate meaningful abstractive summaries from
Brazilian Portuguese web content.
- Abstract(参考訳): ウィキペディアは知的な知識の重要なフリーソースである。
それにもかかわらず、ブラジルポルトガル語のウィキペディアには、多くの主題についての記述がない。
ブラジルのウィキペディアを拡大するために、複数の記述Webサイトからウィキに似た抽象要約を生成するフレームワークPLSumを寄贈する。
フレームワークは抽出段階を持ち、次いで抽象段階である。
特に抽象的な段階では、Transformer Neural Network, PTT5とLongformerの2つの最近のバリエーションを比較する。
モデルを微調整し、評価するために、数千のサンプルからなるデータセットを作成し、参考ウェブサイトをWikipediaにリンクした。
その結果,ブラジルのwebコンテンツから意味のある要約要約を生成できることがわかった。
関連論文リスト
- Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - TWAG: A Topic-Guided Wikipedia Abstract Generator [23.937804531845938]
Wikipediaの抽象生成は、ウィキペディアの抽象化をWebソースから抽出することを目的としており、大きな成功を収めている。
それまでの著作では、抽象概念を平易なテキストとみなしており、ある実体の記述であり、異なるトピックに分解できるという事実を無視している。
本稿では,トピック情報を用いた2段階モデルTWAGを提案する。
論文 参考訳(メタデータ) (2021-06-29T07:42:08Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。