論文の概要: Self-Repetition in Abstractive Neural Summarizers
- arxiv url: http://arxiv.org/abs/2210.08145v1
- Date: Fri, 14 Oct 2022 23:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:06:37.234562
- Title: Self-Repetition in Abstractive Neural Summarizers
- Title(参考訳): 抽象的神経要約における自己反復
- Authors: Nikita Salkar, Thomas Trikalinos, Byron C. Wallace, Ani Nenkova
- Abstract要約: 我々は、同じ系の複数の出力に現れる長さ 4 以上の n-gram の数として自己反復を測定する。
回帰分析では,これら3つのアーキテクチャは,入力の出力サマリーをまたいだコンテントの再現性が異なることがわかった。
より抽象的なデータや公式言語を特徴とするデータに対する微調整は、より高い自己反復率に結びついている。
- 参考スコア(独自算出の注目度): 33.40630847966743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a quantitative and qualitative analysis of self-repetition in the
output of neural summarizers. We measure self-repetition as the number of
n-grams of length four or longer that appear in multiple outputs of the same
system. We analyze the behavior of three popular architectures (BART, T5, and
Pegasus), fine-tuned on five datasets. In a regression analysis, we find that
the three architectures have different propensities for repeating content
across output summaries for inputs, with BART being particularly prone to
self-repetition. Fine-tuning on more abstractive data, and on data featuring
formulaic language, is associated with a higher rate of self-repetition. In
qualitative analysis we find systems produce artefacts such as ads and
disclaimers unrelated to the content being summarized, as well as formulaic
phrases common in the fine-tuning domain. Our approach to corpus-level analysis
of self-repetition may help practitioners clean up training data for
summarizers and ultimately support methods for minimizing the amount of
self-repetition.
- Abstract(参考訳): 神経要約器の出力における自己反復の定量的・定性的な分析を行う。
我々は、同じ系の複数の出力に現れる長さ 4 以上の n-gram の数として自己反復を測定する。
我々は,5つのデータセットを微調整した3つの人気アーキテクチャ(BART,T5,Pegasus)の挙動を分析する。
回帰分析では、3つのアーキテクチャは入力の出力サマリーにまたがってコンテントを繰り返す確率が異なることが分かり、BARTは特に自己反復しがちである。
より抽象的なデータや公式言語を特徴とするデータに対する微調整は、より高い自己反復率と関連付けられる。
質的分析では、システムは、要約されるコンテンツとは無関係な広告や廃棄者などのアーティファクトや、微調整領域で一般的な公式句を生成する。
自己反復のコーパスレベル分析へのアプローチは,実践者が要約者の訓練データをクリーンアップし,最終的に自己反復の量を最小化する手法をサポートするのに役立つかもしれない。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Instructive Dialogue Summarization with Query Aggregations [41.89962538701501]
本稿では,対話要約モデルの能力集合を拡張するために,命令精細言語モデルを提案する。
高品質なクエリベースの要約三重項を合成するための3段階のアプローチを提案する。
多目的インストラクティブトリプルを用いた3つの要約データセット上で、InstructDSと呼ばれる統一モデルをトレーニングすることにより、対話要約モデルの能力を拡大する。
論文 参考訳(メタデータ) (2023-10-17T04:03:00Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Controlled Text Reduction [15.102190738450092]
textitControlled Text Reduction をスタンドアロンタスクとして形式化する。
モデルでは、対象情報すべてと対象情報のみを含む一貫性のあるテキストを生成する必要がある。
論文 参考訳(メタデータ) (2022-10-24T17:59:03Z) - SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.832673451018543]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。
読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。
最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文 参考訳(メタデータ) (2022-05-23T17:02:07Z) - How well do you know your summarization datasets? [11.992125069326772]
3つの一般的な要約データセットから600のサンプルを分析した。
続いて、27の最先端の要約モデルと5つの一般的なメトリクスを徹底的に分析する。
論文 参考訳(メタデータ) (2021-06-21T19:44:06Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。