論文の概要: Long Document Summarization in a Low Resource Setting using Pretrained
Language Models
- arxiv url: http://arxiv.org/abs/2103.00751v1
- Date: Mon, 1 Mar 2021 04:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:48:49.778972
- Title: Long Document Summarization in a Low Resource Setting using Pretrained
Language Models
- Title(参考訳): 事前学習型言語モデルを用いた低リソース設定における長文文書要約
- Authors: Ahsaas Bajaj, Pavitra Dangati, Kalpesh Krishna, Pradhiksha Ashok
Kumar, Rheeya Uppaal, Bradford Windsor, Eliot Brenner, Dominic Dotterrer,
Rajarshi Das and Andrew McCallum
- Abstract要約: 我々は、平均ソース文書長4268ワードの長い法的ブリーフを要約する挑戦的な低リソース設定を研究します。
我々は17.9 ROUGE-Lを達成し、それが長い文と闘うように、現代の事前訓練抽象要約BARTを使用します。
圧縮された文書をBARTに送付すると,6.0ROUGE-Lの改善が観察される。
- 参考スコア(独自算出の注目度): 28.042826329840437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstractive summarization is the task of compressing a long document into a
coherent short document while retaining salient information. Modern abstractive
summarization methods are based on deep neural networks which often require
large training datasets. Since collecting summarization datasets is an
expensive and time-consuming task, practical industrial settings are usually
low-resource. In this paper, we study a challenging low-resource setting of
summarizing long legal briefs with an average source document length of 4268
words and only 120 available (document, summary) pairs. To account for data
scarcity, we used a modern pretrained abstractive summarizer BART (Lewis et
al., 2020), which only achieves 17.9 ROUGE-L as it struggles with long
documents. We thus attempt to compress these long documents by identifying
salient sentences in the source which best ground the summary, using a novel
algorithm based on GPT-2 (Radford et al., 2019) language model perplexity
scores, that operates within the low resource regime. On feeding the compressed
documents to BART, we observe a 6.0 ROUGE-L improvement. Our method also beats
several competitive salience detection baselines. Furthermore, the identified
salient sentences tend to agree with an independent human labeling by domain
experts.
- Abstract(参考訳): 抽象要約は、長い文書を健全な情報を保持しながらコヒーレントな短い文書に圧縮する作業である。
現代の抽象要約法は、大きなトレーニングデータセットを必要とするディープニューラルネットワークに基づいている。
要約データセットの収集は高価で時間を要する作業であるため、実践的な産業環境は通常低リソースである。
本論文では, 平均ソース文書長4268語, 利用可能な120語 (文書, 要約) のみからなる, ロングリーガルブリーフを要約する, 難易度の高い低リソース設定について検討する。
データ不足を理由に、我々は17.9 ROUGE-Lを達成し、それは長い文書に苦労しながら、現代の事前訓練抽象要約BART(Lewis et al., 2020)を使用しました。
そこで我々は, GPT-2 (Radford et al., 2019) の言語モデルパープレキシティスコアに基づく新しいアルゴリズムを用いて, 要約を最良とするソース内の有能な文を同定することにより, これらの長い文書を圧縮しようとする。
圧縮された文書をBARTに送付すると,6.0ROUGE-Lの改善が観察される。
また,本手法は,いくつかの競合サリエンス検出基準線を破る。
さらに、特定された有能な文は、ドメインの専門家による独立した人間のラベル付けと一致する傾向にある。
関連論文リスト
- On Positional Bias of Faithfulness for Long-form Summarization [83.63283027830657]
LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。
長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
論文 参考訳(メタデータ) (2024-10-31T03:50:15Z) - A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。
凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。
要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文 参考訳(メタデータ) (2024-10-09T03:42:40Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A
Practical Study [1.933681537640272]
ChatGPTは、大規模言語モデル(LLM)分野における最新のブレークスルーである。
本稿では,ビジネス記事や書籍などの長い文書のハイブリッド抽出と要約パイプラインを提案する。
以上の結果から,ChatGPTの使用は長文を要約するための非常に有望なアプローチであるが,まだ成熟していないことが示唆された。
論文 参考訳(メタデータ) (2023-06-01T21:58:33Z) - TSTR: Too Short to Represent, Summarize with Details! Intro-Guided
Extended Summary Generation [22.738731393540633]
学術文献など、原文が比較的長い領域では、そのような要約は一般的で粗い概観を超越することはできない。
本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文 参考訳(メタデータ) (2022-06-02T02:45:31Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。