論文の概要: Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection
- arxiv url: http://arxiv.org/abs/2403.04073v1
- Date: Wed, 6 Mar 2024 22:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:56:29.967380
- Title: Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection
- Title(参考訳): 高品質擬似ラベル選択による半教師付き対話要約
- Authors: Jianfeng He, Hang Su, Jason Cai, Igor Shalyminov, Hwanjun Song, Saab
Mansour
- Abstract要約: 半教師あり対話要約(SSDS)は、人ラベルデータへの依存を減らすためにモデル生成要約を利用する。
要約モデルの品質の3つの主次元をカプセル化した新しいスコアリング手法SiCFを提案する。
- 参考スコア(独自算出の注目度): 27.531083525683243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised dialogue summarization (SSDS) leverages model-generated
summaries to reduce reliance on human-labeled data and improve the performance
of summarization models. While addressing label noise, previous works on
semi-supervised learning primarily focus on natural language understanding
tasks, assuming each sample has a unique label. However, these methods are not
directly applicable to SSDS, as it is a generative task, and each dialogue can
be summarized in different ways. In this work, we propose a novel scoring
approach, SiCF, which encapsulates three primary dimensions of summarization
model quality: Semantic invariance (indicative of model confidence), Coverage
(factual recall), and Faithfulness (factual precision). Using the SiCF score,
we select unlabeled dialogues with high-quality generated summaries to train
summarization models. Comprehensive experiments on three public datasets
demonstrate the effectiveness of SiCF scores in uncertainty estimation and
semi-supervised learning for dialogue summarization tasks. Our code is
available at \url{https://github.com/amazon-science/summarization-sicf-score}.
- Abstract(参考訳): semi-supervised dialogue summarization (ssds)は、モデル生成の要約を利用して、人間ラベルデータへの依存を減らし、要約モデルの性能を向上させる。
ラベルノイズに対処する一方で、以前の半教師付き学習の研究は主に自然言語理解タスクに焦点を当てており、各サンプルがユニークなラベルを持っていると仮定している。
しかし、これらの手法は生成タスクであるため、SSDSに直接適用されず、それぞれの対話を異なる方法で要約することができる。
本研究では,要約モデル品質の3つの主次元をカプセル化した新しいスコアリング手法であるsicfを提案する。
SiCFスコアを用いて,高品質な要約を含むラベルなし対話を選択し,要約モデルの学習を行う。
3つの公開データセットに関する総合的な実験は、不確実性推定におけるSiCFスコアの有効性と対話要約タスクにおける半教師あり学習の有効性を示す。
私たちのコードは \url{https://github.com/amazon-science/summarization-sicf-score} で利用可能です。
関連論文リスト
- Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - Improving the Faithfulness of Abstractive Summarization via Entity
Coverage Control [27.214742188672464]
エンティティカバレッジ制御(ECC)を用いたエンティティレベルの幻覚の治療法を提案する。
ECCはエンティティカバレッジの精度を計算し、トレーニング例ごとに対応する制御コードをプリペンドする。
提案手法は,教師付き微調整およびゼロショット設定において,より忠実かつ健全な抽象的要約をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-05T18:52:19Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - ARMAN: Pre-training with Semantically Selecting and Reordering of
Sentences for Persian Abstractive Summarization [7.16879432974126]
本稿では,トランスフォーマーをベースとしたエンコーダデコーダモデルARMANを提案する。
ARMANでは、修正されたセマンティックスコアに基づいて文書からの有能な文が選択され、擬似要約を形成する。
提案手法は,ROUGEとBERTScoreで計測された6つの要約タスクに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-09-09T08:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。