論文の概要: Balancing Lexical and Semantic Quality in Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2305.09898v1
- Date: Wed, 17 May 2023 02:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:55:21.564817
- Title: Balancing Lexical and Semantic Quality in Abstractive Summarization
- Title(参考訳): 抽象要約における語彙と意味品質のバランス
- Authors: Jeewoo Sul and Yong Suk Choi
- Abstract要約: 本稿では,リランカが語彙的品質と意味的品質のバランスをとる新しいトレーニング手法を提案する。
CNN/DailyMail と XSum のデータセットを用いた実験では,語彙的側面を著しく劣化させることなく要約の意味を推定できることがわかった。
- 参考スコア(独自算出の注目度): 0.38073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important problem of the sequence-to-sequence neural models widely used in
abstractive summarization is exposure bias. To alleviate this problem,
re-ranking systems have been applied in recent years. Despite some performance
improvements, this approach remains underexplored. Previous works have mostly
specified the rank through the ROUGE score and aligned candidate summaries, but
there can be quite a large gap between the lexical overlap metric and semantic
similarity. In this paper, we propose a novel training method in which a
re-ranker balances the lexical and semantic quality. We further newly define
false positives in ranking and present a strategy to reduce their influence.
Experiments on the CNN/DailyMail and XSum datasets show that our method can
estimate the meaning of summaries without seriously degrading the lexical
aspect. More specifically, it achieves an 89.67 BERTScore on the CNN/DailyMail
dataset, reaching new state-of-the-art performance. Our code is publicly
available at https://github.com/jeewoo1025/BalSum.
- Abstract(参考訳): 抽象的要約に広く使われているシーケンスからシーケンスまでのニューラルモデルの重要な問題は、露出バイアスである。
この問題を緩和するため、近年では再ランクシステムも適用されている。
いくつかの性能改善にもかかわらず、このアプローチは未検討のままである。
以前の作品では、ほとんどがルージュスコアと候補要約によるランクを指定するが、語彙重複度と意味的類似度の間には、かなり大きなギャップがある。
本稿では,リランカが語彙と意味的品質のバランスをとる新しいトレーニング手法を提案する。
さらに,ランキングにおける偽陽性を新たに定義し,その影響を減らすための戦略を提案する。
CNN/DailyMail および XSum データセットを用いた実験により,語彙的側面を著しく劣化させることなく要約の意味を推定できることを示した。
具体的には、CNN/DailyMailデータセットで89.67 BERTScoreを達成し、新しい最先端パフォーマンスを実現する。
私たちのコードはhttps://github.com/jeewoo1025/BalSumで公開されています。
関連論文リスト
- Investigating Text Shortening Strategy in BERT: Truncation vs Summarization [2.7645945793246973]
本研究は,テキスト分類作業における文書トランケーションと要約の性能について検討する。
インドネシアのニュース記事に基づく要約タスクのデータセットを用いて分類試験を行った。
論文 参考訳(メタデータ) (2024-03-19T15:01:14Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Towards Summary Candidates Fusion [26.114829566197976]
サムマフュージョンと呼ばれる第2段階抽象要約における新しいパラダイムを提案する。
いくつかの要約候補を融合させ、新しい抽象的な第2段階の要約を生成する。
本手法は,複数の要約データセットでよく機能し,融解サマリーのROUGEスコアと定性の両方を改善した。
論文 参考訳(メタデータ) (2022-10-17T06:48:05Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - PushNet: Efficient and Adaptive Neural Message Passing [1.9121961872220468]
メッセージパッシングニューラルネットワークは、最近、グラフ上での表現学習に対する最先端のアプローチへと進化した。
既存のメソッドは、複数のラウンドですべてのエッジに沿って同期メッセージパッシングを実行する。
我々は、収束するまで最も関連性の高いエッジに沿ってのみ情報をプッシュする、新しい非同期メッセージパッシングアプローチについて検討する。
論文 参考訳(メタデータ) (2020-03-04T18:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。