論文の概要: OTExtSum: Extractive Text Summarisation with Optimal Transport
- arxiv url: http://arxiv.org/abs/2204.10086v1
- Date: Thu, 21 Apr 2022 13:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 17:46:19.651185
- Title: OTExtSum: Extractive Text Summarisation with Optimal Transport
- Title(参考訳): OTExtSum: 最適転送による抽出テキスト要約
- Authors: Peggy Tang, Kun Hu, Rui Yan, Lei Zhang, Junbin Gao, Zhiyong Wang
- Abstract要約: テキスト要約を最適輸送(OT)問題として初めて定式化した非学習型手法を提案する。
提案手法は,最先端の非学習的手法と最近の学習的手法をROUGEメートル法で比較した。
- 参考スコア(独自算出の注目度): 45.78604902572955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extractive text summarisation aims to select salient sentences from a
document to form a short yet informative summary. While learning-based methods
have achieved promising results, they have several limitations, such as
dependence on expensive training and lack of interpretability. Therefore, in
this paper, we propose a novel non-learning-based method by for the first time
formulating text summarisation as an Optimal Transport (OT) problem, namely
Optimal Transport Extractive Summariser (OTExtSum). Optimal sentence extraction
is conceptualised as obtaining an optimal summary that minimises the
transportation cost to a given document regarding their semantic distributions.
Such a cost is defined by the Wasserstein distance and used to measure the
summary's semantic coverage of the original document. Comprehensive experiments
on four challenging and widely used datasets - MultiNews, PubMed, BillSum, and
CNN/DM demonstrate that our proposed method outperforms the state-of-the-art
non-learning-based methods and several recent learning-based methods in terms
of the ROUGE metric.
- Abstract(参考訳): 抽出テキスト要約は、文書から有能な文を選び、短いが情報的な要約を形成することを目的としている。
学習ベースの手法は有望な結果を得たが、高価なトレーニングへの依存や解釈可能性の欠如など、いくつかの制限がある。
そこで本稿では,テキスト要約を最適輸送(OT)問題,すなわちOTExtSum(Optimal Transport Extractive Summariser)として初めて定式化した非学習型手法を提案する。
最適文抽出は、その意味分布に関する文書への輸送コストを最小化する最適な要約を得るものとして概念化される。
そのようなコストはwasserstein距離によって定義され、サマリーのオリジナルの文書の意味的カバレッジを測定するのに使用される。
multinews、pubmed、billsum、cnn/dmの4つの挑戦的かつ広く使用されるデータセットに関する包括的な実験は、提案手法が最先端の非学習ベース手法や最近のルージュメトリックの学習ベース手法よりも優れていることを示している。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Source Identification in Abstractive Summarization [0.8883733362171033]
生成された要約文に必須情報を含む入力文を$textitsource文として定義し、ソース文を解析して抽象的な要約がどのように作られるかを研究する。
我々は,複数の手法を比較し,タスクの強いベースラインを確立するために,自動ソース文検出を定式化する。
実験結果から, パープレキシティに基づく手法は, 比較的抽象的条件下では良好に動作し, 類似性に基づく手法は比較的抽出的条件下では頑健であることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:09:09Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Towards Abstractive Timeline Summarisation using Preference-based
Reinforcement Learning [3.6640004265358477]
本稿では,複数のニュースソースから報告されるイベントの時系列を要約する新しいパイプラインを提案する。
抽象的な要約のためのトランスフォーマーに基づくモデルは、長い文書のコヒーレントで簡潔な要約を生成する。
抽出要約は情報源に忠実であるが、読みにくく、余分な情報や不要な情報を含んでいる可能性がある。
論文 参考訳(メタデータ) (2022-11-14T18:24:13Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - A Survey on Neural Abstractive Summarization Methods and Factual
Consistency of Summarization [18.763290930749235]
要約は、サブセット(要約)を作成するために、テキストデータの集合を計算的に短縮する過程である
既存の要約法は、抽出法と抽象法という2つのタイプに大別できる。
抽出要約器は、ソース文書からテキストスニペットを明示的に選択し、抽象要約器は、ソースで広く普及している最も健全な概念を伝えるために、新しいテキストスニペットを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:56:36Z) - A New Sentence Extraction Strategy for Unsupervised Extractive
Summarization Methods [26.326800624948344]
本稿では,情報理論の観点から,抽出テキスト要約手法の課題をモデル化する。
特徴分布の改善と要約文の相互情報の低減を目的として,新たな文抽出手法を提案する。
論文 参考訳(メタデータ) (2021-12-06T18:00:02Z) - Unsupervised Extractive Summarization using Pointwise Mutual Information [5.544401446569243]
文間のポイントワイズ相互情報 (PMI) を用いて, 関連性および冗長性の新たな指標を提案する。
本手法は, ニュース, 医療雑誌記事, 個人逸話など, さまざまな領域のデータセットにおける類似性に基づく手法を上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-11T21:05:50Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。