論文の概要: Efficient Few-Shot Fine-Tuning for Opinion Summarization
- arxiv url: http://arxiv.org/abs/2205.02170v1
- Date: Wed, 4 May 2022 16:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 13:29:32.128374
- Title: Efficient Few-Shot Fine-Tuning for Opinion Summarization
- Title(参考訳): オピニオン要約のためのフルショットファインチューニング
- Authors: Arthur Bra\v{z}inskas, Ramesh Nallapati, Mohit Bansal, Markus Dreyer
- Abstract要約: 抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
- 参考スコア(独自算出の注目度): 83.76460801568092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstractive summarization models are typically pre-trained on large amounts
of generic texts, then fine-tuned on tens or hundreds of thousands of annotated
samples. However, in opinion summarization, large annotated datasets of reviews
paired with reference summaries are not available and would be expensive to
create. This calls for fine-tuning methods robust to overfitting on small
datasets. In addition, generically pre-trained models are often not accustomed
to the specifics of customer reviews and, after fine-tuning, yield summaries
with disfluencies and semantic mistakes. To address these problems, we utilize
an efficient few-shot method based on adapters which, as we show, can easily
store in-domain knowledge. Instead of fine-tuning the entire model, we add
adapters and pre-train them in a task-specific way on a large corpus of
unannotated customer reviews, using held-out reviews as pseudo summaries. Then,
fine-tune the adapters on the small available human-annotated dataset. We show
that this self-supervised adapter pre-training improves summary quality over
standard fine-tuning by 2.0 and 1.3 ROUGE-L points on the Amazon and Yelp
datasets, respectively. Finally, for summary personalization, we condition on
aspect keyword queries, automatically created from generic datasets. In the
same vein, we pre-train the adapters in a query-based manner on customer
reviews and then fine-tune them on annotated datasets. This results in
better-organized summary content reflected in improved coherence and fewer
redundancies.
- Abstract(参考訳): 抽象的な要約モデルは典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
しかし、意見要約では、参照要約と組み合わせた大量の注釈付きレビューデータセットは利用できず、作成に費用がかかる。
これにより、小さなデータセットのオーバーフィットにロバストな微調整メソッドが要求される。
さらに、一般的な事前学習されたモデルは、しばしば顧客レビューの仕様に慣れておらず、微調整された後に、不一致と意味的な間違いを伴うサマリーを産出する。
これらの問題に対処するために、我々は、ドメイン内の知識を簡単に保存できるアダプタに基づく効率的な数発ショット法を利用する。
モデル全体を微調整する代わりに、保留レビューを擬似要約として使用し、注釈のない顧客レビューの大規模なコーパス上で、アダプタを追加し、タスク固有の方法で事前トレーニングします。
次に、小さなアノテーション付きデータセットでアダプタを微調整する。
この自己教師型アダプタの事前トレーニングにより,Amazon とYelp のデータセット上の標準微調整よりも,それぞれ 1.3 ROUGE-L ポイントの要約品質が向上することを示す。
最後に、要約パーソナライズのために、ジェネリックデータセットから自動生成されるアスペクトキーワードクエリを条件とする。
同じように、顧客のレビューに基づいてクエリベースの方法でアダプタを事前トレーニングし、アノテーション付きデータセットで微調整します。
これにより、コヒーレンスの改善と冗長性の低減に反映されたより組織化された要約内容が得られる。
関連論文リスト
- On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Align then Summarize: Automatic Alignment Methods for Summarization
Corpus Creation [8.029049649310211]
自動テキスト要約の最先端は、主にニュース記事を中心に展開されている。
我々の研究は、ニューラル・サマリゼーションに適したデータセットを得るために、レポートに関するセグメンテーションとコーディネートから構成される。
本報告では, 連携した公開ミーティングの新たなコーパスにおいて, 自動アライメントと要約性能について報告する。
論文 参考訳(メタデータ) (2020-07-15T17:03:34Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。