論文の概要: DocSum: Domain-Adaptive Pre-training for Document Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2412.08196v1
- Date: Wed, 11 Dec 2024 08:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:07.750877
- Title: DocSum: Domain-Adaptive Pre-training for Document Abstractive Summarization
- Title(参考訳): DocSum: ドキュメント抽象要約のためのドメイン適応型事前トレーニング
- Authors: Phan Phuong Mai Chau, Souhail Bakkali, Antoine Doucet,
- Abstract要約: 抽象的な要約は、大量のテキストをコヒーレントな要約に凝縮し、言い換える上で重要な一歩を踏み出した。
既存のモデルは、しばしばそのような文書の複雑な構造や専門的な内容に適応するのに苦労する。
本稿では,管理文書に適したドメイン適応型抽象要約フレームワークDocSumを紹介する。
- 参考スコア(独自算出の注目度): 2.8201999897313015
- License:
- Abstract: Abstractive summarization has made significant strides in condensing and rephrasing large volumes of text into coherent summaries. However, summarizing administrative documents presents unique challenges due to domain-specific terminology, OCR-generated errors, and the scarcity of annotated datasets for model fine-tuning. Existing models often struggle to adapt to the intricate structure and specialized content of such documents. To address these limitations, we introduce DocSum, a domain-adaptive abstractive summarization framework tailored for administrative documents. Leveraging pre-training on OCR-transcribed text and fine-tuning with an innovative integration of question-answer pairs, DocSum enhances summary accuracy and relevance. This approach tackles the complexities inherent in administrative content, ensuring outputs that align with real-world business needs. To evaluate its capabilities, we define a novel downstream task setting-Document Abstractive Summarization-which reflects the practical requirements of business and organizational settings. Comprehensive experiments demonstrate DocSum's effectiveness in producing high-quality summaries, showcasing its potential to improve decision-making and operational workflows across the public and private sectors.
- Abstract(参考訳): 抽象的な要約は、大量のテキストをコヒーレントな要約に凝縮し、言い換える上で重要な一歩を踏み出した。
しかし、管理文書の要約は、ドメイン固有の用語、OCR生成エラー、およびモデル微調整のための注釈付きデータセットの不足による固有の課題を示す。
既存のモデルは、しばしばそのような文書の複雑な構造や専門的な内容に適応するのに苦労する。
これらの制約に対処するため、行政文書に適したドメイン適応抽象要約フレームワークDocSumを紹介した。
OCRで書き起こされたテキストの事前学習と質問応答ペアの革新的な統合による微調整を活用し、DocSumは要約精度と妥当性を高める。
このアプローチは、管理コンテンツに固有の複雑さに対処し、現実世界のビジネスニーズに合わせたアウトプットを保証する。
その能力を評価するために、ビジネスおよび組織設定の実践的要件を反映した、下流タスク設定-文書要約-を新たに定義する。
総合的な実験では、DocSumが高品質な要約を作成する上で有効であることを示し、公共部門と民間セクターにおける意思決定と運用ワークフローを改善する可能性を示している。
関連論文リスト
- Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - Interactive Editing for Text Summarization [30.46273082913698]
REVISEは、人間の書き手による要約の反復的な編集と洗練を容易にするために設計されたフレームワークである。
中心となるREVISEは、エンコーダ・デコーダアーキテクチャによる中間モデルの修正を取り入れている。
論文 参考訳(メタデータ) (2023-06-05T17:43:53Z) - ACM -- Attribute Conditioning for Abstractive Multi Document
Summarization [0.0]
本稿では,属性条件付きモジュールを組み込んだモデルを提案する。
このアプローチは、ベースラインのマルチドキュメント要約アプローチよりもROUGEスコアが大きく向上することを示している。
論文 参考訳(メタデータ) (2022-05-09T00:00:14Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Controllable Summarization with Constrained Markov Decision Process [50.04321779376415]
本研究では,ユーザが特定の属性を制御できる可制御テキスト要約について検討する。
制約付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。
我々のフレームワークは、長さ、被覆された実体、抽象性など、要約の重要な属性を制御するために応用できる。
論文 参考訳(メタデータ) (2021-08-07T09:12:53Z) - Entity-level Factual Consistency of Abstractive Text Summarization [26.19686599842915]
抽象要約の重要な課題は、生成した要約の原文書に対する事実的一貫性を保証することである。
生成した要約の実体レベルの事実整合性を定量化するための新しいメトリクスセットを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:07:28Z) - Constrained Abstractive Summarization: Preserving Factual Consistency
with Constrained Generation [93.87095877617968]
本稿では,抽象要約の現実的一貫性を保ちつつ,制約付き抽象要約(CAS)を提案する。
我々は、CASを満たすために、一般的に自己回帰生成モデルに適用される語彙制約付き復号法を採用する。
対話的要約において1つの手動制約のみを使用する場合、最大13.8ROUGE-2ゲインを観測する。
論文 参考訳(メタデータ) (2020-10-24T00:27:44Z) - Summarizing Text on Any Aspects: A Knowledge-Informed Weakly-Supervised
Approach [89.56158561087209]
文書に関連する任意の側面を要約する。
監視データがないため、我々は新しい弱い監督構築法とアスペクト・モデリング・スキームを開発した。
実験により,本手法は実文書と合成文書の両方を要約することで,性能の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T03:20:46Z) - Enhancing Factual Consistency of Abstractive Summarization [57.67609672082137]
ファクトアウェアな要約モデル FASum を提案し,実情関係を抽出し,要約生成プロセスに統合する。
次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。
論文 参考訳(メタデータ) (2020-03-19T07:36:10Z) - StructSum: Summarization via Structured Representations [27.890477913486787]
抽象テキスト要約は、長い資料の情報を要約した要約に圧縮することを目的としている。
モデリング技術の進歩にもかかわらず、抽象的な要約モデルは依然としていくつかの重要な課題に悩まされている。
本稿では,これらの課題に対処するための要約のための文書レベルの構造誘導に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-01T20:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。