論文の概要: On the Trade-off between Redundancy and Local Coherence in Summarization
- arxiv url: http://arxiv.org/abs/2205.10192v1
- Date: Fri, 20 May 2022 14:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 14:23:30.031630
- Title: On the Trade-off between Redundancy and Local Coherence in Summarization
- Title(参考訳): 要約における冗長性と局所コヒーレンスとのトレードオフについて
- Authors: Ronald Cardenas and Matthias Galle and Shay B. Cohen
- Abstract要約: 長文・高冗長文書の教師なし抽出要約における要約冗長性の問題に取り組む。
我々は、局所的なコヒーレンスと冗長性を直接モデル化する人間の読解に関する心理言語学理論を活用する。
我々のシステムは命題レベルで動作し、人間のメモリ表現の特性を利用して、一貫性のある非冗長なコンテンツ単位をランク付けする。
- 参考スコア(独自算出の注目度): 29.974305123118548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extractive summarization systems are known to produce poorly coherent and, if
not accounted for, highly redundant text. In this work, we tackle the problem
of summary redundancy in unsupervised extractive summarization of long,
highly-redundant documents. For this, we leverage a psycholinguistic theory of
human reading comprehension which directly models local coherence and
redundancy. Implementing this theory, our system operates at the proposition
level and exploits properties of human memory representations to rank similarly
content units that are coherent and non-redundant, hence encouraging the
extraction of less redundant final summaries. Because of the impact of the
summary length on automatic measures, we control for it by formulating content
selection as an optimization problem with soft constraints in the budget of
information retrieved. Using summarization of scientific articles as a case
study, extensive experiments demonstrate that the proposed systems extract
consistently less redundant summaries across increasing levels of document
redundancy, whilst maintaining comparable performance (in terms of relevancy
and local coherence) against strong unsupervised baselines according to
automated evaluations.
- Abstract(参考訳): 抽出要約システムは、一貫性が悪く、たとえ説明がつかないとしても、非常に冗長なテキストを生成することが知られている。
本研究では,長い文書の教師なし抽出要約における要約冗長性の問題に取り組む。
そこで我々は,局所的コヒーレンスと冗長性を直接モデル化する,人間の読解に関する心理言語学理論を活用する。
この理論を実践するために,本システムは命題レベルで動作し,ヒトのメモリ表現の特性を利用して,一貫性のある非冗長なコンテンツ単位をランク付けし,冗長でない最終要約の抽出を促進する。
要約長が自動測度に与える影響から,検索した情報予算のソフト制約を伴う最適化問題として,コンテンツ選択を定式化することにより,その制御を行う。
科学的記事の要約をケーススタディとして利用することにより,提案手法は文書の冗長性が増大するレベルにおいて,より冗長な要約を一貫して抽出する一方で,比較性能(関連性と局所的コヒーレンスの観点から)を,自動評価による教師なしベースラインに対して維持できることが実証された。
関連論文リスト
- Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - `Keep it Together': Enforcing Cohesion in Extractive Summaries by
Simulating Human Memory [22.659031563705245]
本稿では,要約における情報性や冗長性を制御しつつ,凝集を強制することを目的としている。
我々の文セレクタは、人間の記憶をシミュレートしてトピックを追跡する。
非常に密集した要約を抽出することはできるが、それでも人間にとって有意義な内容の要約を読めばよい。
論文 参考訳(メタデータ) (2024-02-16T12:43:26Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Enhancing Coherence of Extractive Summarization with Multitask Learning [40.349019691412465]
本研究では,コヒーレンス向上を伴う抽出要約のためのマルチタスク学習アーキテクチャを提案する。
アーキテクチャは、抽出要約器とコヒーレント判別器モジュールとを含む。
実験の結果,提案手法は抽出した要約文の連続文の割合を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2023-05-22T09:20:58Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Unsupervised Extractive Summarization using Pointwise Mutual Information [5.544401446569243]
文間のポイントワイズ相互情報 (PMI) を用いて, 関連性および冗長性の新たな指標を提案する。
本手法は, ニュース, 医療雑誌記事, 個人逸話など, さまざまな領域のデータセットにおける類似性に基づく手法を上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-11T21:05:50Z) - Systematically Exploring Redundancy Reduction in Summarizing Long
Documents [6.812554384019158]
長い文書を要約する際、冗長性に対処する方法を探索し比較する。
提案手法は,2つの学術論文データセット上でのROUGEスコアに対して,最先端の手法を実現することを実証した。
論文 参考訳(メタデータ) (2020-11-30T19:07:27Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。