論文の概要: Echoes from Alexandria: A Large Resource for Multilingual Book
Summarization
- arxiv url: http://arxiv.org/abs/2306.04334v1
- Date: Wed, 7 Jun 2023 11:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:58:42.067772
- Title: Echoes from Alexandria: A Large Resource for Multilingual Book
Summarization
- Title(参考訳): アレクサンドリアのEchoes:多言語書籍要約のための大規模なリソース
- Authors: Alessandro Scir\`e, Simone Conia, Simone Ciciliano, Roberto Navigli
- Abstract要約: アレクサンドリアからのEcho」は多言語書籍要約のための大きな資源である。
Echoesには、3つの新しいデータセットがある: i) Echo-Wiki, for multilingual book summarization, ii) Echo-XSum, for extremely-compressive multilingual book summarization, 3)) Echo-FairySum, for extractive book summarization。
- 参考スコア(独自算出の注目度): 99.86355187131349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, research in text summarization has mainly focused on the
news domain, where texts are typically short and have strong layout features.
The task of full-book summarization presents additional challenges which are
hard to tackle with current resources, due to their limited size and
availability in English only. To overcome these limitations, we present "Echoes
from Alexandria", or in shortened form, "Echoes", a large resource for
multilingual book summarization. Echoes features three novel datasets: i)
Echo-Wiki, for multilingual book summarization, ii) Echo-XSum, for
extremely-compressive multilingual book summarization, and iii) Echo-FairySum,
for extractive book summarization. To the best of our knowledge, Echoes, with
its thousands of books and summaries, is the largest resource, and the first to
be multilingual, featuring 5 languages and 25 language pairs. In addition to
Echoes, we also introduce a new extractive-then-abstractive baseline, and,
supported by our experimental results and manual analysis of the summaries
generated, we argue that this baseline is more suitable for book summarization
than purely-abstractive approaches. We release our resource and software at
https://github.com/Babelscape/echoes-from-alexandria in the hope of fostering
innovative research in multilingual book summarization.
- Abstract(参考訳): 近年、テキスト要約の研究は主にニュース領域に焦点を合わせており、テキストは一般的に短くレイアウトが強い。
全書要約のタスクは、英語でのみ利用できるサイズと可用性が制限されているため、現在のリソースに対処するのが難しい追加の課題を提示する。
これらの制限を克服するために、多言語書籍要約のための大きなリソースである「アレクサンドリアからのEcho」または短縮形「Echo」を提案する。
Echoesには3つの新しいデータセットがある。
i) Echo-Wiki による多言語書籍要約
二 超圧縮多言語書籍要約用エコーxsum及び
三 抽出本要約のためのEcho-FairySum
われわれの知る限りでは、Echoesは何千もの本と要約を持ち、最大のリソースであり、5つの言語と25の言語ペアを備えた最初の多言語言語である。
また,Echo に加え,新たに抽出-主題-抽象的ベースラインを導入し,実験結果と手動による要約解析により,本ベースラインは純粋抽象的アプローチよりも書籍要約に適している,と論じている。
我々は、多言語書籍要約における革新的な研究の促進を願って、アレクサンドリアからのリソースとソフトウェアをhttps://github.com/Babelscape/echoes-from-exandriaでリリースします。
関連論文リスト
- Converging Dimensions: Information Extraction and Summarization through Multisource, Multimodal, and Multilingual Fusion [0.0]
本稿では,複数の情報源の強みを生かして,このような課題に対処する新たな要約手法を提案する。
この研究は、テキストドキュメントのような従来型にない情報源を超えて進展し、YouTubeのプレイリスト、プレプリント、ウィキペディアページなど、より多様なデータを統合している。
論文 参考訳(メタデータ) (2024-06-19T17:15:47Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Klexikon: A German Dataset for Joint Summarization and Simplification [2.931632009516441]
我々は、ドイツ語ウィキペディアとドイツ語児童辞書「クレキシコン」に基づく共同テキスト簡素化と要約のための新しいデータセットを作成する。
我々は要約の側面を強調し、この資源が単純化にも適しているという統計的証拠を提供する。
論文 参考訳(メタデータ) (2022-01-18T18:50:43Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。