論文の概要: Align then Summarize: Automatic Alignment Methods for Summarization
Corpus Creation
- arxiv url: http://arxiv.org/abs/2007.07841v1
- Date: Wed, 15 Jul 2020 17:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:45:38.046951
- Title: Align then Summarize: Automatic Alignment Methods for Summarization
Corpus Creation
- Title(参考訳): Align then Summarize: Summarization Corpus Creationのための自動アライメント手法
- Authors: Paul Tardy, David Janiszek, Yannick Est\`eve, Vincent Nguyen
- Abstract要約: 自動テキスト要約の最先端は、主にニュース記事を中心に展開されている。
我々の研究は、ニューラル・サマリゼーションに適したデータセットを得るために、レポートに関するセグメンテーションとコーディネートから構成される。
本報告では, 連携した公開ミーティングの新たなコーパスにおいて, 自動アライメントと要約性能について報告する。
- 参考スコア(独自算出の注目度): 8.029049649310211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarizing texts is not a straightforward task. Before even considering text
summarization, one should determine what kind of summary is expected. How much
should the information be compressed? Is it relevant to reformulate or should
the summary stick to the original phrasing? State-of-the-art on automatic text
summarization mostly revolves around news articles. We suggest that considering
a wider variety of tasks would lead to an improvement in the field, in terms of
generalization and robustness. We explore meeting summarization: generating
reports from automatic transcriptions. Our work consists in segmenting and
aligning transcriptions with respect to reports, to get a suitable dataset for
neural summarization. Using a bootstrapping approach, we provide pre-alignments
that are corrected by human annotators, making a validation set against which
we evaluate automatic models. This consistently reduces annotators' efforts by
providing iteratively better pre-alignment and maximizes the corpus size by
using annotations from our automatic alignment models. Evaluation is conducted
on \publicmeetings, a novel corpus of aligned public meetings. We report
automatic alignment and summarization performances on this corpus and show that
automatic alignment is relevant for data annotation since it leads to large
improvement of almost +4 on all ROUGE scores on the summarization task.
- Abstract(参考訳): テキストの要約は簡単な作業ではありません。
テキストの要約を考える前に、どんな要約が期待されているかを判断する必要がある。
情報をどれくらい圧縮すべきか?
要約は元の言い回しに固執すべきだろうか。
自動テキスト要約の最先端は、主にニュース記事を中心に展開する。
我々は,より幅広いタスクを考慮すれば,一般化と堅牢性の観点から,この分野の改善につながることを示唆する。
我々は会議要約について考察する: 自動転写からレポートを生成する。
我々の研究は、ニューラル・サマリゼーションに適したデータセットを得るために、レポートに関するセグメンテーションとコーディネートから構成される。
ブートストラップアプローチを用いて,人間のアノテーションによって修正される事前調整を行い,自動モデルの評価を行う検証セットを作成する。
これは、反復的により良い事前調整を提供し、自動アライメントモデルからのアノテーションを使用してコーパスサイズを最大化することで、アノテーション作成者の努力を一貫して削減します。
評価は、協調した公開会議の新しいコーパスである \publicmeetings 上で行われる。
本稿では,このコーパス上での自動アライメントと要約性能を報告し,データアノテーションに自動アライメントが関連していることを示す。
関連論文リスト
- Incremental Extractive Opinion Summarization Using Cover Trees [81.59625423421355]
オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、意見要約を定期的に更新する必要がある。
本研究では,漸進的な環境下での抽出的意見要約の課題について検討する。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Controlled Text Reduction [15.102190738450092]
textitControlled Text Reduction をスタンドアロンタスクとして形式化する。
モデルでは、対象情報すべてと対象情報のみを含む一貫性のあるテキストを生成する必要がある。
論文 参考訳(メタデータ) (2022-10-24T17:59:03Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - A General Contextualized Rewriting Framework for Text Summarization [15.311467109946571]
抽出文は比較的焦点が当てられているが、背景知識や談話の文脈が失われる可能性がある。
コンテントベースのアドレッシングによって抽出文を識別し、グループタグアライメントを施したSeq2seqとしてコンテクスト化された書き直しを形式化する。
その結果,本手法は強化学習を必要とせず,非コンテクスチュアライズされた書き換えシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-13T03:55:57Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Automated News Summarization Using Transformers [4.932130498861987]
我々は,テキスト要約のためのトランスフォーマーアーキテクチャに基づく事前学習モデルについて,包括的に比較する。
分析と比較のために,要約や人為的な要約に使用できるテキストデータを含むBBCニュースデータセットを用いた。
論文 参考訳(メタデータ) (2021-04-23T04:22:33Z) - Leverage Unlabeled Data for Abstractive Speech Summarization with
Self-Supervised Learning and Back-Summarization [6.465251961564605]
神経抽象的要約のための改良されたアプローチは、構築にコストがかかる大きな注釈付きコーパスを必要とする。
本稿では,ミーティング音声記録の自動書き起こしに基づいて,レポートが予測される,フランスの会議要約タスクを提案する。
本報告では,2つの評価セットの両アプローチのベースラインに対して,以前のベースラインと比較して大きな改善点を報告した。
論文 参考訳(メタデータ) (2020-07-30T08:22:47Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。