論文の概要: Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise
- arxiv url: http://arxiv.org/abs/2212.09928v2
- Date: Mon, 4 Dec 2023 16:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:36:15.230084
- Title: Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise
- Title(参考訳): 入力雑音の検出と除去による要約モデルのロバスト性向上
- Authors: Kundan Krishna, Yao Zhao, Jie Ren, Balaji Lakshminarayanan, Jiaming
Luo, Mohammad Saleh, Peter J. Liu
- Abstract要約: 本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
- 参考スコア(独自算出の注目度): 50.27105057899601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of abstractive summarization models typically uses test data
that is identically distributed as training data. In real-world practice,
documents to be summarized may contain input noise caused by text extraction
artifacts or data pipeline bugs. The robustness of model performance under
distribution shift caused by such noise is relatively under-studied. We present
a large empirical study quantifying the sometimes severe loss in performance
(up to 12 ROUGE-1 points) from different types of input noise for a range of
datasets and model sizes. We then propose a light-weight method for detecting
and removing such noise in the input during model inference without requiring
any extra training, auxiliary models, or even prior knowledge of the type of
noise. Our proposed approach effectively mitigates the loss in performance,
recovering a large fraction of the performance drop, sometimes as large as 11
ROUGE-1 points.
- Abstract(参考訳): 抽象要約モデルの評価は、通常、トレーニングデータとして均等に分布するテストデータを使用する。
実世界の実践では、要約されるドキュメントには、テキスト抽出アーティファクトやデータパイプラインバグによる入力ノイズが含まれている可能性がある。
このようなノイズによる分布シフト時のモデル性能のロバスト性は比較的低い。
そこで本研究では,様々な入力雑音による性能低下(最大12ルージュ-1ポイント)を,データセットやモデルサイズで定量的に定量化する実験を行った。
そこで本研究では,モデル推論中の入力中のそのようなノイズを検出し,除去する軽量な手法を提案する。
提案手法は性能低下を効果的に軽減し,性能低下の大部分を回復させる。
関連論文リスト
- Improving Noise Robustness through Abstractions and its Impact on Machine Learning [2.6563873893593826]
ノイズは機械学習(ML)手法の適用に大きな影響を与える学習理論の基本的な問題である。
本稿では,データ抽象化を用いてノイズを緩和する手法を提案する。
目標は、抽象化によって生成された情報の損失を通じて、モデルの性能に対するノイズの影響を減らすことである。
論文 参考訳(メタデータ) (2024-06-12T17:14:44Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Towards Robust and Generalizable Training: An Empirical Study of Noisy
Slot Filling for Input Perturbations [38.766702041991046]
スロット充足作業のためのノイズ-SFというノイズロバスト性評価データセットを提案する。
提案するデータセットには,5種類の人称アノテートノイズが含まれている。
ベースラインモデルはロバスト性評価において性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-10-05T12:59:57Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Denoising Enhanced Distantly Supervised Ultrafine Entity Typing [36.14308856513851]
本研究では,未知のラベル付き雑音分布を入力コンテキストおよび雑音型ラベル上で推定するノイズモデルを構築した。
ノイズモデルにより、推定ノイズを入力から減じることで、より信頼できるラベルを復元することができる。
本稿では,バイエンコーダアーキテクチャを採用したエンティティ型付けモデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T05:20:16Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。