論文の概要: Unsupervised Extractive Summarization with Learnable Length Control
Strategies
- arxiv url: http://arxiv.org/abs/2312.06901v1
- Date: Tue, 12 Dec 2023 00:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:46:16.290992
- Title: Unsupervised Extractive Summarization with Learnable Length Control
Strategies
- Title(参考訳): 学習可能な長さ制御戦略を用いた教師なし抽出要約
- Authors: Renlong Jie, Xiaojun Meng, Xin Jiang, Qun Liu
- Abstract要約: 教師なし抽出要約は情報抽出と検索において重要な手法である。
既存の教師なし手法の多くは、文中心性に基づくグラフベースのランキングに依存している。
本稿では,シャイムネットワークに基づく教師なし抽出要約モデルを提案する。
- 参考スコア(独自算出の注目度): 33.75745103050596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised extractive summarization is an important technique in
information extraction and retrieval. Compared with supervised method, it does
not require high-quality human-labelled summaries for training and thus can be
easily applied for documents with different types, domains or languages. Most
of existing unsupervised methods including TextRank and PACSUM rely on
graph-based ranking on sentence centrality. However, this scorer can not be
directly applied in end-to-end training, and the positional-related prior
assumption is often needed for achieving good summaries. In addition, less
attention is paid to length-controllable extractor, where users can decide to
summarize texts under particular length constraint. This paper introduces an
unsupervised extractive summarization model based on a siamese network, for
which we develop a trainable bidirectional prediction objective between the
selected summary and the original document. Different from the centrality-based
ranking methods, our extractive scorer can be trained in an end-to-end manner,
with no other requirement of positional assumption. In addition, we introduce a
differentiable length control module by approximating 0-1 knapsack solver for
end-to-end length-controllable extracting. Experiments show that our
unsupervised method largely outperforms the centrality-based baseline using a
same sentence encoder. In terms of length control ability, via our trainable
knapsack module, the performance consistently outperforms the strong baseline
without utilizing end-to-end training. Human evaluation further evidences that
our method performs the best among baselines in terms of relevance and
consistency.
- Abstract(参考訳): 教師なし抽出要約は情報抽出と検索において重要な手法である。
教師付き手法と比較して、トレーニングに質の高い人間ラベルのサマリーを必要としないため、異なるタイプ、ドメイン、言語を持つ文書に容易に適用できる。
textrankやpacsumなど既存の教師なしの手法のほとんどは、文中心性に基づくグラフベースのランキングに依存している。
しかし、このスコアラはエンドツーエンドのトレーニングでは直接適用できず、良い要約を得るためには位置関係の事前仮定がしばしば必要となる。
さらに、ユーザーが特定の長さ制約の下でテキストを要約することを決定できる長さ制御可能な抽出器にはあまり注意が払わない。
本稿では,シムズネットワークに基づく教師なし抽出要約モデルを紹介し,選択した要約と原文書間の訓練可能な双方向予測目標を開発する。
集中性に基づくランキング手法と異なり, 抽出スコアは, 位置推定を必要とせず, エンドツーエンドでトレーニングすることができる。
さらに,0-1knapsackソルバを終端から終端までの長さ制御可能な抽出に近似することにより,可変長制御モジュールを導入する。
実験の結果, 教師なし手法は, 同じ文エンコーダを用いて, 集中度に基づくベースラインよりも優れていた。
トレーニング可能なknapsackモジュールによる長さ制御能力では、エンドツーエンドのトレーニングを使わずに、パフォーマンスが一貫して強力なベースラインを上回っます。
人的評価はさらに,本手法がベースライン間において,関連性と一貫性の観点から最良であることを示す。
関連論文リスト
- Learning Non-Autoregressive Models from Search for Unsupervised Sentence
Summarization [20.87460375478907]
テキスト要約は、入力テキストの短い要約を生成することを目的としている。
本研究では,非自己回帰的教師なし要約手法を提案する。
実験により、NAUSは教師なし要約の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2022-05-28T21:09:23Z) - Improving Multi-Document Summarization through Referenced Flexible
Extraction with Credit-Awareness [21.037841262371355]
MDS(Multi-Document Summarization)における注目すべき課題は、入力の非常に長い長さである。
本稿では,この問題を克服するための抽出・抽出・吸収変換器フレームワークを提案する。
擬似抽出オラクルにない文の不等式の重要性をモデルに認識させる損失重み付け機構を提案する。
論文 参考訳(メタデータ) (2022-05-04T04:40:39Z) - The Summary Loop: Learning to Write Abstractive Summaries Without
Examples [21.85348918324668]
本研究は,与えられた長さ制約に対するカバレッジとフラエンシの組み合わせを最大化することに基づく,教師なし抽象的要約に対する新しいアプローチを提案する。
主要な用語は元のドキュメントから隠蔽され、現在の生成された要約を使ってカバレッジモデルで満たされなければならない。
一般的なニュース要約データセットでテストすると、従来の教師なし手法よりも2R-1ポイント以上性能が向上する。
論文 参考訳(メタデータ) (2021-05-11T23:19:46Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z) - Interpretable Multi-Headed Attention for Abstractive Summarization at
Controllable Lengths [14.762731718325002]
MLS(Multi-level Summarizer)は、テキスト文書の要約を制御可能な長さで構築するための教師付き手法である。
MLSはMETEORスコアで14.70%の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2020-02-18T19:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。