論文の概要: OASum: Large-Scale Open Domain Aspect-based Summarization
- arxiv url: http://arxiv.org/abs/2212.09233v2
- Date: Thu, 25 May 2023 22:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:00:24.258675
- Title: OASum: Large-Scale Open Domain Aspect-based Summarization
- Title(参考訳): oasum: 大規模オープンドメインアスペクトベースの要約
- Authors: Xianjun Yang, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Xiaoman Pan,
Linda Petzold, Dong Yu
- Abstract要約: 我々は、ウィキペディア.orgのクラウドソーシングの知識を活用し、OASumという高品質で大規模なアスペクトベースの要約データセットを自動生成する。
OASumには370万以上のインスタンスがあり、200万のWikipediaページで約100万の異なる側面がある。
特定のドメインにおけるデータの不足を克服するために、我々は7つの下流データセットでゼロショット、少数ショット、微調整を行う。
- 参考スコア(独自算出の注目度): 29.45232847592956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aspect or query-based summarization has recently caught more attention, as it
can generate differentiated summaries based on users' interests. However, the
current dataset for aspect or query-based summarization either focuses on
specific domains, contains relatively small-scale instances, or includes only a
few aspect types. Such limitations hinder further explorations in this
direction. In this work, we take advantage of crowd-sourcing knowledge on
Wikipedia.org and automatically create a high-quality, large-scale open-domain
aspect-based summarization dataset named OASum, which contains more than 3.7
million instances with around 1 million different aspects on 2 million
Wikipedia pages. We provide benchmark results on OASum and demonstrate its
ability for diverse aspect-based summarization generation. To overcome the data
scarcity problem on specific domains, we also perform zero-shot, few-shot, and
fine-tuning on seven downstream datasets. Specifically, zero/few-shot and
fine-tuning results show that the model pre-trained on our corpus demonstrates
a strong aspect or query-focused generation ability compared with the backbone
model. Our dataset and pre-trained checkpoints are publicly available.
- Abstract(参考訳): アスペクトやクエリベースの要約は、ユーザーの興味に基づいて区別された要約を生成することができるため、最近さらに注目を集めている。
しかしながら、アスペクトまたはクエリベースの要約のための現在のデータセットは、特定のドメインに焦点を当てるか、比較的小さなインスタンスを含むか、少数のアスペクトタイプしか含まない。
このような制限は、この方向のさらなる探検を妨げる。
本研究では、ウィキペディア.orgのクラウドソーシングの知識を活用し、200万ページで約100万の異なるアスペクトを持つ370万以上のインスタンスを含む、OASumという高品質で大規模なオープンドメインアスペクトベースの要約データセットを自動生成する。
我々はOASumのベンチマーク結果を提供し、様々なアスペクトベースの要約生成能力を示す。
特定のドメインにおけるデータの不足を克服するために、我々は7つの下流データセットでゼロショット、少数ショット、微調整を行う。
具体的には、ゼロ/フェーショットおよび微調整の結果、コーパスで事前訓練されたモデルは、バックボーンモデルと比較して強いアスペクトまたはクエリ中心の生成能力を示す。
データセットと事前トレーニングされたチェックポイントは公開されています。
関連論文リスト
- Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework [15.991114464911844]
過去5年間で、大規模なデータセットは公開されていない。
本稿では,大規模・クロスドメインな歩行者属性認識データセット MSP60K を提案する。
8つのシナリオにまたがる60,122のイメージと57の属性アノテーションで構成されている。
論文 参考訳(メタデータ) (2024-08-19T06:19:31Z) - Wiki Entity Summarization Benchmark [9.25319552487389]
エンティティの要約は知識グラフにおけるエンティティの簡潔な要約を計算することを目的としている。
既存のデータセットとベンチマークは、しばしば数百のエンティティに制限される。
我々は、エンティティ、要約、およびそれらの接続からなる包括的なベンチマークであるWikESを提案する。
論文 参考訳(メタデータ) (2024-06-12T17:22:00Z) - ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。