論文の概要: Text Summarization with Oracle Expectation
- arxiv url: http://arxiv.org/abs/2209.12714v1
- Date: Mon, 26 Sep 2022 14:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:28:50.692118
- Title: Text Summarization with Oracle Expectation
- Title(参考訳): Oracleが期待するテキスト要約
- Authors: Yumo Xu and Mirella Lapata
- Abstract要約: 抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 88.39032981994535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extractive summarization produces summaries by identifying and concatenating
the most important sentences in a document. Since most summarization datasets
do not come with gold labels indicating whether document sentences are
summary-worthy, different labeling algorithms have been proposed to extrapolate
oracle extracts for model training. In this work, we identify two flaws with
the widely used greedy labeling approach: it delivers suboptimal and
deterministic oracles. To alleviate both issues, we propose a simple yet
effective labeling algorithm that creates soft, expectation-based sentence
labels. We define a new learning objective for extractive summarization which
incorporates learning signals from multiple oracle summaries and prove it is
equivalent to estimating the oracle expectation for each document sentence.
Without any architectural modifications, the proposed labeling scheme achieves
superior performance on a variety of summarization benchmarks across domains
and languages, in both supervised and zero-shot settings.
- Abstract(参考訳): 抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
多くの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていないため、モデルトレーニングのためにオラクル抽出を外挿する異なるラベル付けアルゴリズムが提案されている。
この作業では、広く使われている欲望のラベリングアプローチの2つの欠陥を特定します。
両問題を緩和するために,ソフトな予測に基づく文ラベルを生成するシンプルなラベル付けアルゴリズムを提案する。
我々は,複数の oracle 要約からの学習信号を組み込んだ抽出要約のための新しい学習目標を定義し,各文書文に対する oracle の期待値を推定することと同値であることを証明した。
アーキテクチャの変更なしに、提案手法は、教師付き設定とゼロショット設定の両方において、ドメインや言語間の様々な要約ベンチマークにおいて優れた性能を達成する。
関連論文リスト
- Query-based Video Summarization with Pseudo Label Supervision [19.229722872058055]
手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットは、コストが高くて小さい。
セルフスーパービジョンは、プリテキストタスクを使用して、擬似ラベルで余分なデータを取得する方法を定義することで、データ空間の問題に対処することができる。
実験結果から,提案した映像要約アルゴリズムは最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-04T22:28:17Z) - Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - DiffuSum: Generation Enhanced Extractive Summarization with Diffusion [14.930704950433324]
抽出要約は、ソース文書から直接文章を抽出することで要約を形成することを目的としている。
本稿では,抽出要約のための新しいパラダイムであるDiffuSumを提案する。
実験結果から, ROUGEスコアが44.83/22.56/40.56$のCNN/DailyMailにおけるDiffuSumの抽出結果が得られた。
論文 参考訳(メタデータ) (2023-05-02T19:09:16Z) - MACSum: Controllable Summarization with Mixed Attributes [56.685735509260276]
MACSumは、混合属性を制御するための最初の人間アノテーションによる要約データセットである。
混合制御可能な要約の新しいタスクに対する2つの単純かつ効果的なパラメータ効率のアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-09T17:17:37Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT [9.271716501646194]
より優れた抽出要約のためのファクトレベルのセマンティックユニットを抽出することを提案する。
階層グラフマスクを用いてBERTにモデルを組み込む。
CNN/DaliyMailデータセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2020-11-19T09:29:51Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。