論文の概要: Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple
Granularities
- arxiv url: http://arxiv.org/abs/2206.10883v3
- Date: Fri, 22 Jul 2022 17:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 09:23:27.030667
- Title: Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple
Granularities
- Title(参考訳): multi-lexsum: 複数の粒度で公民権訴訟の現実の要約
- Authors: Zejiang Shen, Kyle Lo, Lauren Yu, Nathan Dahlberg, Margo Schlanger,
Doug Downey
- Abstract要約: マルチレックスサム (Multi-LexSum) は、公民権ライゲーション・クリアリングハウス (Civil Rights Litigation Clearinghouse) から9,280名の専門家が発行したサマリーのコレクションである。
トレーニングデータの高品質な要約にもかかわらず、最先端の要約モデルは、このタスクでは不十分である。
トレーニングデータにおける高品質な要約にもかかわらず、最先端の要約モデルは、このタスクでは不十分であることを示す。
- 参考スコア(独自算出の注目度): 19.599298546562604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of large language models, methods for abstractive
summarization have made great strides, creating potential for use in
applications to aid knowledge workers processing unwieldy document collections.
One such setting is the Civil Rights Litigation Clearinghouse (CRLC)
(https://clearinghouse.net),which posts information about large-scale civil
rights lawsuits, serving lawyers, scholars, and the general public. Today,
summarization in the CRLC requires extensive training of lawyers and law
students who spend hours per case understanding multiple relevant documents in
order to produce high-quality summaries of key events and outcomes. Motivated
by this ongoing real-world summarization effort, we introduce Multi-LexSum, a
collection of 9,280 expert-authored summaries drawn from ongoing CRLC writing.
Multi-LexSum presents a challenging multi-document summarization task given the
length of the source documents, often exceeding two hundred pages per case.
Furthermore, Multi-LexSum is distinct from other datasets in its multiple
target summaries, each at a different granularity (ranging from one-sentence
"extreme" summaries to multi-paragraph narrations of over five hundred words).
We present extensive analysis demonstrating that despite the high-quality
summaries in the training data (adhering to strict content and style
guidelines), state-of-the-art summarization models perform poorly on this task.
We release Multi-LexSum for further research in summarization methods as well
as to facilitate development of applications to assist in the CRLC's mission at
https://multilexsum.github.io.
- Abstract(参考訳): 大規模な言語モデルが登場し、抽象的な要約の手法が大きな進歩を遂げ、知識労働者が文書コレクションを処理するのに使える可能性を生み出した。
そのような設定の1つが公民権解放クリアリングハウス (CRLC) (https://clearinghouse.net) であり、大規模な公民権訴訟に関する情報を投稿し、弁護士、学者、一般大衆に奉仕している。
今日、CRLCの要約は、重要な出来事や成果の高品質な要約を作成するために、1件あたり何時間もの関連文書を理解する弁護士や法学生の広範な訓練を必要とする。
この実世界の要約に触発されたMulti-LexSumは、現在進行中のCRLCによる9,280名の専門家による要約集である。
Multi-LexSumは、ソースドキュメントの長さを考慮し、1ケースあたり200ページを超える、挑戦的なマルチドキュメント要約タスクを示す。
さらに、multi-lexsumは、複数のターゲットサマリーの他のデータセットとは、それぞれ異なる粒度("extreme"サマリーから500語以上のマルチパラグラフナレーションまで)で区別される。
学習データ(厳格なコンテンツとスタイルガイドラインに準拠)の質の高い要約にもかかわらず、最先端の要約モデルは、このタスクではうまく機能しないことを示す広範な分析を行う。
要約手法のさらなる研究と https://multilexsum.github.io での CRLC のミッションを支援するアプリケーションの開発を容易にするため,Multi-LexSum をリリースする。
関連論文リスト
- PELMS: Pre-training for Effective Low-Shot Multi-Document Summarization [4.6493060043204535]
PELMSは,簡潔で流動的で忠実な要約を生成する事前学習モデルである。
我々は9300万以上のドキュメントを含むマルチドキュメント事前学習コーパスであるMultiPTをコンパイルし、300万以上の未ラベルのトピック中心のドキュメントクラスタを形成する。
我々のアプローチは、全体的な情報性、抽象性、一貫性、忠実性に関して、競争比較を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-16T12:05:23Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Long-Document Cross-Lingual Summarization [15.806431267733819]
言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。
長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。
ペルセウスの文書の平均の長さは2,000以上のトークンである。
論文 参考訳(メタデータ) (2022-12-01T15:24:16Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - An Enhanced MeanSum Method For Generating Hotel Multi-Review
Summarizations [0.06091702876917279]
マルチアスペクトマーカ(MAM)をコンテンツセレクタとして使用し、マルチアスペクトでこの問題に対処する。
また,生成した要約の長さを制御する正規化器を提案する。
改良されたモデルでは,元のMeansum法よりも高いROUGE,知覚精度が得られる。
論文 参考訳(メタデータ) (2020-12-07T13:16:01Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。