論文の概要: On the State of German (Abstractive) Text Summarization
- arxiv url: http://arxiv.org/abs/2301.07095v1
- Date: Tue, 17 Jan 2023 18:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:17:43.842724
- Title: On the State of German (Abstractive) Text Summarization
- Title(参考訳): ドイツ(抽象的)テキスト要約の現状について
- Authors: Dennis Aumiller and Jing Fan and Michael Gertz
- Abstract要約: ドイツの抽象的テキスト要約の景観を評価する。
業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
- 参考スコア(独自算出の注目度): 3.1776833268555134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With recent advancements in the area of Natural Language Processing, the
focus is slowly shifting from a purely English-centric view towards more
language-specific solutions, including German. Especially practical for
businesses to analyze their growing amount of textual data are text
summarization systems, which transform long input documents into compressed and
more digestible summary texts. In this work, we assess the particular landscape
of German abstractive text summarization and investigate the reasons why
practically useful solutions for abstractive text summarization are still
absent in industry. Our focus is two-fold, analyzing a) training resources, and
b) publicly available summarization systems. We are able to show that popular
existing datasets exhibit crucial flaws in their assumptions about the original
sources, which frequently leads to detrimental effects on system generalization
and evaluation biases. We confirm that for the most popular training dataset,
MLSUM, over 50% of the training set is unsuitable for abstractive summarization
purposes. Furthermore, available systems frequently fail to compare to simple
baselines, and ignore more effective and efficient extractive summarization
approaches. We attribute poor evaluation quality to a variety of different
factors, which are investigated in more detail in this work: A lack of
qualitative (and diverse) gold data considered for training, understudied (and
untreated) positional biases in some of the existing datasets, and the lack of
easily accessible and streamlined pre-processing strategies or analysis tools.
We provide a comprehensive assessment of available models on the cleaned
datasets, and find that this can lead to a reduction of more than 20 ROUGE-1
points during evaluation. The code for dataset filtering and reproducing
results can be found online at https://github.com/dennlinger/summaries
- Abstract(参考訳): 近年の自然言語処理分野の進歩により、ドイツ語を含む、純粋に英語中心の視点から言語固有のソリューションへと徐々に焦点が移っている。
企業がテキストデータ量の増加を分析するための特に実用的な方法は、長い入力文書を圧縮し、より消化しやすい要約テキストに変換するテキスト要約システムである。
本研究は,ドイツにおける抽象的テキスト要約の特定の景観を評価し,その実用的解決法がいまだに業界に欠落している理由について考察する。
私たちの焦点は2倍分析です
a) 訓練資源,及び
b) 一般公開された要約システム
既存の一般的なデータセットは、元のソースに関する仮定に重大な欠陥があり、しばしばシステムの一般化と評価バイアスに有害な影響を及ぼすことを示すことができる。
最も一般的なトレーニングデータセットであるMLSUMでは、50%以上のトレーニングセットが抽象的な要約目的には適さないことを確認します。
さらに、利用可能なシステムは単純なベースラインと比較できないことが多く、より効率的で効率的な抽出要約アプローチを無視している。
トレーニングのために考慮された質的な(そして多様な)金のデータ不足、既存のデータセットのいくつかで検討された(そして未処理の)位置バイアス、アクセスが容易で合理化された前処理戦略や分析ツールの欠如。
浄化したデータセット上で利用可能なモデルの包括的評価を行い,評価中に20ルージュ1ポイント以上を削減できることを見いだした。
データセットのフィルタリングと再生のコードは、https://github.com/dennlinger/summariesで見ることができる。
関連論文リスト
- ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Lay Text Summarisation Using Natural Language Processing: A Narrative
Literature Review [1.8899300124593648]
本研究の目的は, テキスト要約の手法を記述し, 比較することである。
私たちは82の記事をスクリーニングし、同じデータセットを使用して2020年から2021年の間に8つの関連論文を公開しました。
ハイブリッドアプローチにおける抽出的および抽象的要約法の組み合わせが最も有効であることが判明した。
論文 参考訳(メタデータ) (2023-03-24T18:30:50Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - OpineSum: Entailment-based self-training for abstractive opinion
summarization [6.584115526134759]
本稿では,抽象的な意見要約のための新しい自己学習手法,OpineSumを提案する。
このアプローチの要約は、テキスト・エンターメントの新たな応用を用いて構築されている。
OpineSumは、両方の設定で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-21T06:20:28Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。