論文の概要: Long document summarization using page specific target text alignment and distilling page importance
- arxiv url: http://arxiv.org/abs/2509.16539v1
- Date: Sat, 20 Sep 2025 05:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.845632
- Title: Long document summarization using page specific target text alignment and distilling page importance
- Title(参考訳): ページ固有テキストアライメントと蒸留ページ重要度を用いた長期文書要約
- Authors: Pushpa Devi, Ayush Agrawal, Ashutosh Dubey, C. Ravindranath Chowdary,
- Abstract要約: 長い文書抽象要約は資源集約であり、この方向にはほとんど文献が存在しない。
PTS (Page-specific Target-text alignment Summarization) は、ソース文書を複数のページに分割することで、抽象的な要約のためのSeq-to-seq法を拡張する。
PTSPI (Page-specific Target-text alignment Summarization with Page Importance) は、部分要約を最終要約にマージする前に追加レイヤを配置する PTS の拡張である。
- 参考スコア(独自算出の注目度): 3.903966540140194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid growth of textual data across news, legal, medical, and scientific domains is becoming a challenge for efficiently accessing and understanding large volumes of content. It is increasingly complex for users to consume and extract meaningful information efficiently. Thus, raising the need for summarization. Unlike short document summarization, long document abstractive summarization is resource-intensive, and very little literature is present in this direction. BART is a widely used efficient sequence-to-sequence (seq-to-seq) model. However, when it comes to summarizing long documents, the length of the context window limits its capabilities. We proposed a model called PTS (Page-specific Target-text alignment Summarization) that extends the seq-to-seq method for abstractive summarization by dividing the source document into several pages. PTS aligns each page with the relevant part of the target summary for better supervision. Partial summaries are generated for each page of the document. We proposed another model called PTSPI (Page-specific Target-text alignment Summarization with Page Importance), an extension to PTS where an additional layer is placed before merging the partial summaries into the final summary. This layer provides dynamic page weightage and explicit supervision to focus on the most informative pages. We performed experiments on the benchmark dataset and found that PTSPI outperformed the SOTA by 6.32\% in ROUGE-1 and 8.08\% in ROUGE-2 scores.
- Abstract(参考訳): ニュース、法律、医学、科学分野にまたがるテキストデータの急速な成長は、大量のコンテンツにアクセスし、理解する上での課題となっている。
ユーザが意味のある情報を効率的に消費し、抽出することがますます複雑になっている。
したがって、要約の必要性を高める。
短い文書要約とは異なり、長い文書抽象要約は資源集約であり、この方向にはほとんど文献が存在しない。
BARTはシークエンス・ツー・シークエンス(seq-to-seq)モデルとして広く使われている。
しかし、長いドキュメントを要約する場合、コンテキストウィンドウの長さはその機能を制限する。
PTS (Page-specific Target-text alignment Summarization) と呼ばれるモデルを提案した。
PTSは、各ページをターゲティングサマリーの関連部分と整合させて、より良い監視を行う。
文書の各ページに部分要約が生成される。
PTSPI(Page-specific Target-text alignment Summarization with Page Importance)と呼ばれる別のモデルを提案しました。
このレイヤは、動的ページの重み付けと、最も情報に富むページに集中するための明示的な監督を提供する。
PTSPIはROUGE-1では6.32 %,ROUGE-2では8.08 %,SOTAでは6.32 %であった。
関連論文リスト
- Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。