論文の概要: OASum: Large-Scale Open Domain Aspect-based Summarization
- arxiv url: http://arxiv.org/abs/2212.09233v2
- Date: Thu, 25 May 2023 22:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:00:24.258675
- Title: OASum: Large-Scale Open Domain Aspect-based Summarization
- Title(参考訳): oasum: 大規模オープンドメインアスペクトベースの要約
- Authors: Xianjun Yang, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Xiaoman Pan,
Linda Petzold, Dong Yu
- Abstract要約: 我々は、ウィキペディア.orgのクラウドソーシングの知識を活用し、OASumという高品質で大規模なアスペクトベースの要約データセットを自動生成する。
OASumには370万以上のインスタンスがあり、200万のWikipediaページで約100万の異なる側面がある。
特定のドメインにおけるデータの不足を克服するために、我々は7つの下流データセットでゼロショット、少数ショット、微調整を行う。
- 参考スコア(独自算出の注目度): 29.45232847592956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aspect or query-based summarization has recently caught more attention, as it
can generate differentiated summaries based on users' interests. However, the
current dataset for aspect or query-based summarization either focuses on
specific domains, contains relatively small-scale instances, or includes only a
few aspect types. Such limitations hinder further explorations in this
direction. In this work, we take advantage of crowd-sourcing knowledge on
Wikipedia.org and automatically create a high-quality, large-scale open-domain
aspect-based summarization dataset named OASum, which contains more than 3.7
million instances with around 1 million different aspects on 2 million
Wikipedia pages. We provide benchmark results on OASum and demonstrate its
ability for diverse aspect-based summarization generation. To overcome the data
scarcity problem on specific domains, we also perform zero-shot, few-shot, and
fine-tuning on seven downstream datasets. Specifically, zero/few-shot and
fine-tuning results show that the model pre-trained on our corpus demonstrates
a strong aspect or query-focused generation ability compared with the backbone
model. Our dataset and pre-trained checkpoints are publicly available.
- Abstract(参考訳): アスペクトやクエリベースの要約は、ユーザーの興味に基づいて区別された要約を生成することができるため、最近さらに注目を集めている。
しかしながら、アスペクトまたはクエリベースの要約のための現在のデータセットは、特定のドメインに焦点を当てるか、比較的小さなインスタンスを含むか、少数のアスペクトタイプしか含まない。
このような制限は、この方向のさらなる探検を妨げる。
本研究では、ウィキペディア.orgのクラウドソーシングの知識を活用し、200万ページで約100万の異なるアスペクトを持つ370万以上のインスタンスを含む、OASumという高品質で大規模なオープンドメインアスペクトベースの要約データセットを自動生成する。
我々はOASumのベンチマーク結果を提供し、様々なアスペクトベースの要約生成能力を示す。
特定のドメインにおけるデータの不足を克服するために、我々は7つの下流データセットでゼロショット、少数ショット、微調整を行う。
具体的には、ゼロ/フェーショットおよび微調整の結果、コーパスで事前訓練されたモデルは、バックボーンモデルと比較して強いアスペクトまたはクエリ中心の生成能力を示す。
データセットと事前トレーニングされたチェックポイントは公開されています。
関連論文リスト
- ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - OpenAsp: A Benchmark for Multi-document Open Aspect-based Summarization [19.079053035229695]
アスペクトベースの要約のベンチマークであるOpenAspを紹介する。
OpenAspで実現された現実的なオープン・アスペクト設定は、現在の最先端の要約モデルに挑戦していることを示す。
論文 参考訳(メタデータ) (2023-12-07T17:06:20Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - How well do you know your summarization datasets? [11.992125069326772]
3つの一般的な要約データセットから600のサンプルを分析した。
続いて、27の最先端の要約モデルと5つの一般的なメトリクスを徹底的に分析する。
論文 参考訳(メタデータ) (2021-06-21T19:44:06Z) - Cross-domain Time Series Forecasting with Attention Sharing [10.180248006928107]
本稿では,データ不足問題に対処する新しいドメイン適応フレームワークであるDomain Adaptation Forecaster(DAF)を提案する。
特に、ドメイン間のドメイン識別器と、個々のドメインに対するプリベートモジュールを備えたアテンションベースの共有モジュールを提案する。
これにより、ドメイン固有の機能をトレーニングしながら、ドメイン不変の潜在機能を生成させることで、ソースとターゲットドメインを共同でトレーニングすることができる。
論文 参考訳(メタデータ) (2021-02-13T00:26:35Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。