論文の概要: An Empirical Survey on Long Document Summarization: Datasets, Models and
Metrics
- arxiv url: http://arxiv.org/abs/2207.00939v1
- Date: Sun, 3 Jul 2022 02:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:46:32.315093
- Title: An Empirical Survey on Long Document Summarization: Datasets, Models and
Metrics
- Title(参考訳): 長期文書要約に関する実証的研究:データセット、モデル、メトリクス
- Authors: Huan Yee Koh, Jiaxin Ju, Ming Liu, Shirui Pan
- Abstract要約: 本稿では,長期文書要約研究の概要について概説する。
我々は、現在の研究の進展に対する視点を広げるために、実証分析を行う。
- 参考スコア(独自算出の注目度): 33.655334920298856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long documents such as academic articles and business reports have been the
standard format to detail out important issues and complicated subjects that
require extra attention. An automatic summarization system that can effectively
condense long documents into short and concise texts to encapsulate the most
important information would thus be significant in aiding the reader's
comprehension. Recently, with the advent of neural architectures, significant
research efforts have been made to advance automatic text summarization
systems, and numerous studies on the challenges of extending these systems to
the long document domain have emerged. In this survey, we provide a
comprehensive overview of the research on long document summarization and a
systematic evaluation across the three principal components of its research
setting: benchmark datasets, summarization models, and evaluation metrics. For
each component, we organize the literature within the context of long document
summarization and conduct an empirical analysis to broaden the perspective on
current research progress. The empirical analysis includes a study on the
intrinsic characteristics of benchmark datasets, a multi-dimensional analysis
of summarization models, and a review of the summarization evaluation metrics.
Based on the overall findings, we conclude by proposing possible directions for
future exploration in this rapidly growing field.
- Abstract(参考訳): 学術論文やビジネスレポートのような長い文書は、重要な問題や余分な注意を要する複雑な主題を詳述する標準形式となっている。
長い文書を短く簡潔なテキストに効果的に要約し、最も重要な情報をカプセル化する自動要約システムは、読者の理解を助ける上で重要である。
近年,ニューラルアーキテクチャの出現に伴い,自動テキスト要約システムの実現に向けた重要な研究が試みられ,これらのシステムを長い文書領域に拡張する上での課題について多くの研究がなされている。
本稿では,長期文書要約に関する研究の概要と,その研究設定の3つの主要コンポーネント(ベンチマークデータセット,要約モデル,評価指標)における体系的評価について概観する。
各構成要素について,長い文書要約の文脈で文献を整理し,経験的分析を行い,現在の研究の進展に関する展望を広げる。
実験分析は,ベンチマークデータセットの内在特性,要約モデルの多次元解析,要約評価指標のレビューを含む。
本研究は, この急速に成長する分野において, 今後の探査への道筋を示唆するものである。
関連論文リスト
- SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.366861473623427]
本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。
筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
論文 参考訳(メタデータ) (2024-08-29T11:13:23Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - QuOTeS: Query-Oriented Technical Summarization [0.2936007114555107]
提案するQuOTeSは,潜在的参照の集合から研究の要約に関連する文章を検索するインタラクティブシステムである。
QuOTeS は Query-Focused Extractive Summarization と High-Recall Information Retrieval の技法を統合し、科学文書のインタラクティブなクエリ-Focused Summarization を提供する。
結果から,QuOTeSは肯定的なユーザエクスペリエンスを提供し,関連する,簡潔かつ完全なクエリ中心の要約を一貫して提供することが明らかになった。
論文 参考訳(メタデータ) (2023-06-20T18:43:24Z) - Making Science Simple: Corpora for the Lay Summarisation of Scientific
Literature [21.440724685950443]
PLOS(大規模)とeLife(medium-scale)の2つの新しい階層化データセットを提案する。
私たちは、データセット間の可読性と抽象性の異なるレベルを強調しながら、レイサマリーの徹底的な特徴付けを提供します。
論文 参考訳(メタデータ) (2022-10-18T15:28:30Z) - Automatic Text Summarization Methods: A Comprehensive Review [1.6114012813668934]
本研究は,要約手法,使用する手法,標準データセット,評価指標,今後の研究範囲などのテキスト要約概念を詳細に分析する。
論文 参考訳(メタデータ) (2022-03-03T10:45:00Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Bringing Structure into Summaries: a Faceted Summarization Dataset for
Long Scientific Documents [30.09742243490895]
FacetSumは、Emeraldのジャーナル記事上に構築された顔の要約ベンチマークである。
データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。
我々は、FacetSumが要約研究のさらなる進歩を促し、NLPシステムの開発を促進すると信じている。
論文 参考訳(メタデータ) (2021-05-31T22:58:38Z) - Summarizing Text on Any Aspects: A Knowledge-Informed Weakly-Supervised
Approach [89.56158561087209]
文書に関連する任意の側面を要約する。
監視データがないため、我々は新しい弱い監督構築法とアスペクト・モデリング・スキームを開発した。
実験により,本手法は実文書と合成文書の両方を要約することで,性能の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T03:20:46Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。