論文の概要: Improving the Robustness of Summarization Systems with Dual Augmentation
- arxiv url: http://arxiv.org/abs/2306.01090v1
- Date: Thu, 1 Jun 2023 19:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:11:15.631802
- Title: Improving the Robustness of Summarization Systems with Dual Augmentation
- Title(参考訳): 双対拡張による要約システムのロバスト性向上
- Authors: Xiuying Chen, Guodong Long, Chongyang Tao, Mingzhe Li, Xin Gao,
Chengqi Zhang, Xiangliang Zhang
- Abstract要約: 頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
- 参考スコア(独自算出の注目度): 68.53139002203118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A robust summarization system should be able to capture the gist of the
document, regardless of the specific word choices or noise in the input. In
this work, we first explore the summarization models' robustness against
perturbations including word-level synonym substitution and noise. To create
semantic-consistent substitutes, we propose a SummAttacker, which is an
efficient approach to generating adversarial samples based on language models.
Experimental results show that state-of-the-art summarization models have a
significant decrease in performance on adversarial and noisy test sets. Next,
we analyze the vulnerability of the summarization systems and explore improving
the robustness by data augmentation. Specifically, the first brittleness factor
we found is the poor understanding of infrequent words in the input.
Correspondingly, we feed the encoder with more diverse cases created by
SummAttacker in the input space. The other factor is in the latent space, where
the attacked inputs bring more variations to the hidden states. Hence, we
construct adversarial decoder input and devise manifold softmixing operation in
hidden space to introduce more diversity. Experimental results on Gigaword and
CNN/DM datasets demonstrate that our approach achieves significant improvements
over strong baselines and exhibits higher robustness on noisy, attacked, and
clean datasets.
- Abstract(参考訳): 頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
本稿では,まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
セマンティック一貫性を持つ代用語を生成するために,言語モデルに基づく対数サンプルを生成するための効率的なアプローチであるSummAttackerを提案する。
実験結果から, 現状の要約モデルでは, 対向性および雑音性試験セットの性能が著しく低下していることがわかった。
次に,要約システムの脆弱性を分析し,データ拡張による堅牢性の向上を検討する。
特に、私たちが発見した最初の脆さ要因は、入力中の頻繁な単語の理解が不十分であることです。
それに応じて、入力空間でsummattackerによって作成されたより多様なケースでエンコーダを供給します。
もう1つの要因は、攻撃された入力が隠れた状態により多くのバリエーションをもたらす潜時空間にある。
そこで我々は,逆デコーダ入力を構築し,多様体ソフトミキシング演算を隠れ空間で考案し,より多様性をもたらす。
Gigaword と CNN/DM データセットの実験結果から,我々の手法は強いベースラインよりも大幅に向上し,ノイズ,攻撃,クリーンなデータセットに対して高いロバスト性を示すことが示された。
関連論文リスト
- SenTest: Evaluating Robustness of Sentence Encoders [0.4194295877935868]
本研究は文エンコーダの堅牢性を評価することに焦点を当てる。
我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。
実験結果は文エンコーダの堅牢性を強く損なう。
論文 参考訳(メタデータ) (2023-11-29T15:21:35Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z) - Boosting the Discriminant Power of Naive Bayes [17.43377106246301]
本稿では,スタックオートエンコーダを用いた特徴拡張手法を提案し,データ中のノイズを低減し,ベイズの識別力を高める。
実験結果から,提案手法は最先端のベイズ分類器よりも大きく,かつ一貫した性能を示した。
論文 参考訳(メタデータ) (2022-09-20T08:02:54Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven
Cloze Reward [42.925345819778656]
本稿では,グラフ拡張と意味駆動型RewarDによる抽象要約のための新しいフレームワークであるASGARDを紹介する。
本稿では,2つのエンコーダ(シーケンシャル文書エンコーダ)とグラフ構造化エンコーダ(グラフ構造化エンコーダ)の利用を提案する。
その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットからの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。
論文 参考訳(メタデータ) (2020-05-03T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。