論文の概要: Exploiting Representation Bias for Data Distillation in Abstractive Text
Summarization
- arxiv url: http://arxiv.org/abs/2312.06022v2
- Date: Wed, 20 Dec 2023 15:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:51:51.511456
- Title: Exploiting Representation Bias for Data Distillation in Abstractive Text
Summarization
- Title(参考訳): 抽象テキスト要約におけるデータ蒸留における表現バイアスの活用
- Authors: Yash Kumar Atri, Vikram Goyal, Tanmoy Chakraborty
- Abstract要約: 深層モデルでは入力空間の多様性を捉えることができないことを示す。
モデルのサンプル空間の多様性を学習するために、クラスタリング技術を使用します。
余分なデータポイントをフィルタリングしてモデルをより堅牢にし、データ空腹を減らすためのメトリクスを考案しました。
- 参考スコア(独自算出の注目度): 25.467836837575742
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Abstractive text summarization is surging with the number of training samples
to cater to the needs of the deep learning models. These models tend to exploit
the training data representations to attain superior performance by improving
the quantitative element of the resultant summary. However, increasing the size
of the training set may not always be the ideal solution to maximize the
performance, and therefore, a need to revisit the quality of training samples
and the learning protocol of deep learning models is a must. In this paper, we
aim to discretize the vector space of the abstractive text summarization models
to understand the characteristics learned between the input embedding space and
the models' encoder space. We show that deep models fail to capture the
diversity of the input space. Further, the distribution of data points on the
encoder space indicates that an unchecked increase in the training samples does
not add value; rather, a tear-down of data samples is highly needed to make the
models focus on variability and faithfulness. We employ clustering techniques
to learn the diversity of a model's sample space and how data points are mapped
from the embedding space to the encoder space and vice versa. Further, we
devise a metric to filter out redundant data points to make the model more
robust and less data hungry. We benchmark our proposed method using
quantitative metrics, such as Rouge, and qualitative metrics, such as
BERTScore, FEQA and Pyramid score. We also quantify the reasons that inhibit
the models from learning the diversity from the varied input samples.
- Abstract(参考訳): 抽象的なテキスト要約は、ディープラーニングモデルのニーズを満たすためのトレーニングサンプルの数とともに増えている。
これらのモデルは、訓練データ表現を利用して、結果要約の定量的要素を改善することにより、優れた性能を得る傾向がある。
しかしながら、トレーニングセットのサイズを増やすことは、常にパフォーマンスを最大化するための理想的なソリューションであるとは限らないため、トレーニングサンプルの品質とディープラーニングモデルの学習プロトコルを再検討する必要がある。
本稿では,入力埋め込み空間とモデルエンコーダ空間の間の特性を理解するために,抽象的テキスト要約モデルのベクトル空間を離散化することを目的とする。
深いモデルでは入力空間の多様性を捉えられていないことを示す。
さらに、エンコーダ空間におけるデータポイントの分布は、トレーニングサンプルの未チェック増加が付加価値をもたらさないことを示している。
我々は、モデルのサンプル空間の多様性と、埋め込み空間からエンコーダ空間へのデータポイントのマッピング方法を学ぶためにクラスタリング技術を採用している。
さらに,冗長なデータポイントをフィルタしてモデルをより堅牢かつ少ないデータ空腹にするために,メトリクスを考案する。
本稿では, BERTScore, FEQA, ピラミドスコアなどの定量値と定性値を用いて, 提案手法のベンチマークを行った。
また、モデルが様々な入力サンプルから多様性を学ぶことを妨げる理由を定量化する。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - Reinforcement Learning with Generative Models for Compact Support Sets [10.041289551532804]
基礎モデルの制御手段として強化学習を利用する枠組みを提案する。
我々のフレームワークは優れた結果をもたらし、追加のラベル付けやデータコストを使わずにかなりのマージンで分類精度を向上した。
論文 参考訳(メタデータ) (2024-04-25T02:48:16Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Semi-supervised Deep Learning for Image Classification with Distribution
Mismatch: A Survey [1.5469452301122175]
ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測の豊富な部分に依存します。
ラベル付きデータ観測を収集することは高価であり、ディープラーニングモデルの使用は理想的ではない。
多くの状況では、異なる非競合データソースが利用可能である。
これにより、ラベル付きデータセットと非ラベル付きデータセットの間にかなりの分散ミスマッチが発生するリスクが生じる。
論文 参考訳(メタデータ) (2022-03-01T02:46:00Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。