論文の概要: Klexikon: A German Dataset for Joint Summarization and Simplification
- arxiv url: http://arxiv.org/abs/2201.07198v1
- Date: Tue, 18 Jan 2022 18:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:48:44.470984
- Title: Klexikon: A German Dataset for Joint Summarization and Simplification
- Title(参考訳): Klexikon: 共同要約と単純化のためのドイツのデータセット
- Authors: Dennis Aumiller and Michael Gertz
- Abstract要約: 我々は、ドイツ語ウィキペディアとドイツ語児童辞書「クレキシコン」に基づく共同テキスト簡素化と要約のための新しいデータセットを作成する。
我々は要約の側面を強調し、この資源が単純化にも適しているという統計的証拠を提供する。
- 参考スコア(独自算出の注目度): 2.931632009516441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, Text Simplification is treated as a monolingual translation
task where sentences between source texts and their simplified counterparts are
aligned for training. However, especially for longer input documents,
summarizing the text (or dropping less relevant content altogether) plays an
important role in the simplification process, which is currently not reflected
in existing datasets. Simultaneously, resources for non-English languages are
scarce in general and prohibitive for training new solutions. To tackle this
problem, we pose core requirements for a system that can jointly summarize and
simplify long source documents. We further describe the creation of a new
dataset for joint Text Simplification and Summarization based on German
Wikipedia and the German children's lexicon "Klexikon", consisting of almost
2900 documents. We release a document-aligned version that particularly
highlights the summarization aspect, and provide statistical evidence that this
resource is well suited to simplification as well. Code and data are available
on Github: https://github.com/dennlinger/klexikon
- Abstract(参考訳): 伝統的に、テキスト単純化は、ソーステキストと単純化されたテキスト間の文がトレーニングのためにアライメントされるモノリンガル翻訳タスクとして扱われる。
しかし、特に長い入力文書の場合、テキストの要約(あるいは関連コンテンツの削除)は、既存のデータセットに反映されていない単純化プロセスにおいて重要な役割を果たす。
同時に、非英語言語のリソースは一般的には乏しく、新しいソリューションのトレーニングを禁止している。
この問題に取り組むために,長いソース文書を共同で要約し,単純化できるシステムにおいて,コアとなる要件を提示する。
さらに、約2900の文書からなるドイツ版ウィキペディアとドイツの子供向け辞書「klexikon」に基づくテキストの簡易化と要約のための新しいデータセットの作成について述べる。
要約の側面を特に強調したドキュメントに整合したバージョンをリリースし、このリソースが単純化にも適しているという統計的な証拠を提供します。
コードとデータはgithubで入手できる。 https://github.com/dennlinger/klexikon
関連論文リスト
- Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - MCTS: A Multi-Reference Chinese Text Simplification Dataset [15.080614581458091]
漢文の簡体化に関する研究は、古くからほとんど行われていない。
マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。
いくつかの教師なし手法と高度な大規模言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-05T11:46:36Z) - DEPLAIN: A German Parallel Corpus with Intralingual Translations into
Plain Language for Sentence and Document Simplification [1.5223905439199599]
そこで本論文では, パラレル, プロライティング, 手作業による手作業による簡易化のデータセットであるDeplainについて述べる。
Deplain を用いてトランスフォーマーベースの seq2seq テキスト簡易化モデルを訓練することで,有望な結果が得られることを示す。
コーパス、ドイツ語の適応したアライメント方法、ウェブ収穫機、そしてここで訓練されたモデルを利用可能にしています。
論文 参考訳(メタデータ) (2023-05-30T11:07:46Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Automated News Summarization Using Transformers [4.932130498861987]
我々は,テキスト要約のためのトランスフォーマーアーキテクチャに基づく事前学習モデルについて,包括的に比較する。
分析と比較のために,要約や人為的な要約に使用できるテキストデータを含むBBCニュースデータセットを用いた。
論文 参考訳(メタデータ) (2021-04-23T04:22:33Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。