論文の概要: JADS: A Framework for Self-supervised Joint Aspect Discovery and Summarization
- arxiv url: http://arxiv.org/abs/2405.18642v1
- Date: Tue, 28 May 2024 23:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:23:36.523438
- Title: JADS: A Framework for Self-supervised Joint Aspect Discovery and Summarization
- Title(参考訳): JADS: 自己教師型共同アスペクト発見と要約のためのフレームワーク
- Authors: Xiaobo Guo, Jay Desai, Srinivasan H. Sengamedu,
- Abstract要約: 私たちのソリューションはトピックの発見と要約をひとつのステップに統合します。
テキストデータから,JADS(Joint Aspect Discovery and Summarization Algorithm)が入力からアスペクトを検出する。
提案手法は,地上の真理と高いセマンティックアライメントを実現し,現実的である。
- 参考スコア(独自算出の注目度): 3.992091862806936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To generate summaries that include multiple aspects or topics for text documents, most approaches use clustering or topic modeling to group relevant sentences and then generate a summary for each group. These approaches struggle to optimize the summarization and clustering algorithms jointly. On the other hand, aspect-based summarization requires known aspects. Our solution integrates topic discovery and summarization into a single step. Given text data, our Joint Aspect Discovery and Summarization algorithm (JADS) discovers aspects from the input and generates a summary of the topics, in one step. We propose a self-supervised framework that creates a labeled dataset by first mixing sentences from multiple documents (e.g., CNN/DailyMail articles) as the input and then uses the article summaries from the mixture as the labels. The JADS model outperforms the two-step baselines. With pretraining, the model achieves better performance and stability. Furthermore, embeddings derived from JADS exhibit superior clustering capabilities. Our proposed method achieves higher semantic alignment with ground truth and is factual.
- Abstract(参考訳): テキスト文書の複数の側面やトピックを含む要約を生成するために、ほとんどのアプローチでは、クラスタリングやトピックモデリングを使用して関連する文をグループ化し、各グループの要約を生成する。
これらのアプローチは、要約アルゴリズムとクラスタリングアルゴリズムを共同で最適化するのに苦労する。
一方、アスペクトベースの要約は既知のアスペクトを必要とする。
私たちのソリューションはトピックの発見と要約をひとつのステップに統合します。
テキストデータを与えられた場合、JADS(Joint Aspect Discovery and Summarization Algorithm)は入力からアスペクトを発見し、トピックの要約を生成する。
本稿では,まず複数の文書(例えば,CNN/DailyMail記事)からの文を入力として混合してラベル付きデータセットを生成し,その混合物の要約をラベルとして利用する自己教師型フレームワークを提案する。
JADSモデルは、2段階のベースラインよりも優れています。
事前トレーニングでは、モデルの性能と安定性が向上する。
さらに、JADSから派生した埋め込みはより優れたクラスタリング能力を示す。
提案手法は,地上の真理と高いセマンティックアライメントを実現し,現実的である。
関連論文リスト
- GLIMMER: Incorporating Graph and Lexical Features in Unsupervised Multi-Document Summarization [13.61818620609812]
我々はGLIMMERと呼ばれる軽量で効果的な非教師付きアプローチを提案し、グラフとLexIcalの特徴をベースとした教師なしマルチ文書要約手法を提案する。
まず、ソース文書から文グラフを構築し、それからテキストから低レベルの特徴をマイニングすることで意味クラスタを自動的に識別する。
また,Multi-News,Multi-XScience,DUC-2004で行った実験により,既存の教師なしアプローチよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-19T16:01:48Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - LBMT team at VLSP2022-Abmusu: Hybrid method with text correlation and
generative models for Vietnamese multi-document summarization [1.4716144941085147]
本稿では,クラスタ類似度に基づくマルチドキュメント要約手法を提案する。
各クラスタから最も重要な文を選択して要約を生成した後、BARTpho と ViT5 を用いて抽象モデルを構築する。
論文 参考訳(メタデータ) (2023-04-11T13:15:24Z) - ClusTop: An unsupervised and integrated text clustering and topic
extraction framework [3.3073775218038883]
教師なしテキストクラスタリングとトピック抽出フレームワーク(ClusTop)を提案する。
フレームワークには、拡張言語モデルトレーニング、次元削減、クラスタリング、トピック抽出の4つのコンポーネントが含まれている。
2つのデータセットの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2023-01-03T03:26:26Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - AgreeSum: Agreement-Oriented Multi-Document Summarization [3.4743618614284113]
記事の集合が与えられた場合、ゴールはすべての入力記事に共通かつ忠実な情報を表す抽象的な要約を提供することである。
我々は、AgreeSumのデータセットを作成し、データセット内のクラスタのサブセットについて、記事の要約関係に関するアノテーションを提供します。
論文 参考訳(メタデータ) (2021-06-04T06:17:49Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。