論文の概要: Systematically Exploring Redundancy Reduction in Summarizing Long
Documents
- arxiv url: http://arxiv.org/abs/2012.00052v1
- Date: Mon, 30 Nov 2020 19:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 20:33:20.236049
- Title: Systematically Exploring Redundancy Reduction in Summarizing Long
Documents
- Title(参考訳): 文書要約における冗長性の体系的探索
- Authors: Wen Xiao, Giuseppe Carenini
- Abstract要約: 長い文書を要約する際、冗長性に対処する方法を探索し比較する。
提案手法は,2つの学術論文データセット上でのROUGEスコアに対して,最先端の手法を実現することを実証した。
- 参考スコア(独自算出の注目度): 6.812554384019158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our analysis of large summarization datasets indicates that redundancy is a
very serious problem when summarizing long documents. Yet, redundancy reduction
has not been thoroughly investigated in neural summarization. In this work, we
systematically explore and compare different ways to deal with redundancy when
summarizing long documents. Specifically, we organize the existing methods into
categories based on when and how the redundancy is considered. Then, in the
context of these categories, we propose three additional methods balancing
non-redundancy and importance in a general and flexible way. In a series of
experiments, we show that our proposed methods achieve the state-of-the-art
with respect to ROUGE scores on two scientific paper datasets, Pubmed and
arXiv, while reducing redundancy significantly.
- Abstract(参考訳): 大規模要約データセットの解析から,冗長性は長い文書を要約する場合,非常に深刻な問題であることが示された。
しかし, 神経要約では冗長性低下は十分に研究されていない。
本研究では,長い文書を要約する際に,冗長性に対処する方法を体系的に検討し,比較する。
具体的には,既存の手法を時間と冗長性を考慮したカテゴリに分類する。
次に,これらのカテゴリの文脈において,非冗長性と重要さのバランスをとる3つの追加手法を提案する。
提案手法は,2つの学術論文データセット,Pubmed と arXiv のROUGEスコアに対して,冗長性を著しく低減し,最先端の手法を実現することを実証した。
関連論文リスト
- GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction [15.246183329778656]
ドキュメントレベルの関係抽出(DocRE)は、構造化されていない文書テキストからエンティティ間の関係を抽出することを目的としている。
これらの課題を克服するために,DocREの新しいモデルであるGEGAを提案する。
我々は、広く使用されている3つのベンチマークデータセット、DocRED、Re-DocRED、Revisit-DocREDでGEGAモデルを評価する。
論文 参考訳(メタデータ) (2024-07-31T07:15:33Z) - Unsupervised Multi-document Summarization with Holistic Inference [41.58777650517525]
本稿では,教師なし多文書抽出要約のための新しい総合的枠組みを提案する。
サブセット代表指数(SRI)は、原文からの文のサブセットの重要性と多様性のバランスをとる。
その結果,多文書要約性能の向上には多様性が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-09-08T02:56:30Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - On the Trade-off between Redundancy and Local Coherence in Summarization [20.16107829497668]
抽出した要約文の相互結合と冗長性の制御を目的とした場合のトレードオフについて検討する。
提案した非教師システムでは,文書の冗長性のレベルによって,密集度の高い要約を抽出できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T14:10:28Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z) - A Divide-and-Conquer Approach to the Summarization of Long Documents [4.863209463405628]
本稿では,長い文書のニューラル・サマライゼーションのための分割・畳み込み手法を提案する。
本手法は文書の談話構造を利用して,文の類似性を利用して問題をより小さな要約問題に分割する。
本稿では,シーケンス・ツー・シーケンスのRNNやトランスフォーマーなど,様々な要約モデルと組み合わせることで,要約性能の向上が期待できることを示す。
論文 参考訳(メタデータ) (2020-04-13T20:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。