論文の概要: Finite-context Indexing of Restricted Output Space for NLP Models Facing
Noisy Input
- arxiv url: http://arxiv.org/abs/2310.14110v1
- Date: Sat, 21 Oct 2023 20:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:54:19.218019
- Title: Finite-context Indexing of Restricted Output Space for NLP Models Facing
Noisy Input
- Title(参考訳): 雑音入力に直面するNLPモデルに対する制約出力空間の有限コンテキストインデックス化
- Authors: Minh Nguyen, Nancy F. Chen
- Abstract要約: FiRoは、クリーンな入力の性能を犠牲にすることなく、ノイズの多い入力におけるNLPモデル性能を向上させるアプローチである。
入力中の各トークンに対してノイズフリーのフォームを推測することにより、入力テキストの健全性を保ちながら、その入力テキストをサニタイズする。
FiRo は有限コンテキストアグリゲーションを用いて文脈埋め込みを得るが、これは制限された出力空間内でノイズのない形式を見つけるのに使用される。
- 参考スコア(独自算出の注目度): 41.44069952733022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP models excel on tasks with clean inputs, but are less accurate with noisy
inputs. In particular, character-level noise such as human-written typos and
adversarially-engineered realistic-looking misspellings often appears in text
and can easily trip up NLP models. Prior solutions to address character-level
noise often alter the content of the inputs (low fidelity), thus inadvertently
lowering model accuracy on clean inputs. We proposed FiRo, an approach to boost
NLP model performance on noisy inputs without sacrificing performance on clean
inputs. FiRo sanitizes the input text while preserving its fidelity by
inferring the noise-free form for each token in the input. FiRo uses
finite-context aggregation to obtain contextual embeddings which is then used
to find the noise-free form within a restricted output space. The output space
is restricted to a small cluster of probable candidates in order to predict the
noise-free tokens more accurately. Although the clusters are small, FiRo's
effective vocabulary (union of all clusters) can be scaled up to better
preserve the input content. Experimental results show NLP models that use FiRo
outperforming baselines on six classification tasks and one sequence labeling
task at various degrees of noise.
- Abstract(参考訳): NLPモデルはクリーンな入力を持つタスクに優れるが、ノイズの多い入力では正確ではない。
特に、人書きタイプミスや逆エンジニアリングによる現実的なミススペルのような文字レベルのノイズがテキストにしばしば現れ、NLPモデルを簡単にトリップすることができる。
文字レベルのノイズに対処する以前の解決策は、しばしば入力の内容を変更する(低忠実度)ため、クリーンな入力に対するモデルの精度を不注意に低下させる。
クリーン入力の性能を犠牲にすることなくノイズ入力におけるNLPモデル性能を向上させるアプローチであるFiRoを提案する。
FiRoは入力中の各トークンのノイズフリーフォームを推測することにより、入力テキストを正当性を保持しながらサニタイズする。
FiRo は有限コンテキストアグリゲーションを用いて文脈埋め込みを得るが、これは制限された出力空間内でノイズのない形式を見つけるのに使用される。
出力空間は、ノイズフリートークンをより正確に予測するために、予測可能な候補の小さなクラスタに制限される。
クラスタは小さいが、FiRoの効果的な語彙(全クラスタの単位)を拡大して入力内容の保存を改善することができる。
実験結果から,FiRoを用いたNLPモデルは,6つの分類タスクと1つのシークエンスラベリングタスクにおいて,ノイズの度合いでベースラインよりも優れていた。
関連論文リスト
- Do we really have to filter out random noise in pre-training data for language models? [42.966566701950164]
インターネットから収集された事前学習されたテキストデータは、必然的にデコードエラーや規制されていないウェブコンテンツに起因するランダムノイズを含む。
この現象を理論的に正当化し、多言語モデルの成功を解明する。
実験により、下流タスクにおけるモデルの性能はNTP損失のみに基づくものではなく、ランダムノイズが下流タスクのパフォーマンスを劣化させる可能性があることが示された。
本稿では,下流タスクヘッドの復調能力を明確に向上させる,新しいプラグアンドプレイ型局所勾配整合損失を提案する。
論文 参考訳(メタデータ) (2025-02-10T16:01:55Z) - FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy
Labels [99.70895640578816]
雑音ラベル付きフェデレーション学習(F-LNL)は,協調型分散学習を通じて最適なサーバモデルを求めることを目的としている。
我々はF-LNLの課題に取り組むためにFedDivを提案し、特にフェデレートノイズフィルタと呼ばれるグローバルノイズフィルタを提案する。
論文 参考訳(メタデータ) (2023-12-19T15:46:47Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Denoising Enhanced Distantly Supervised Ultrafine Entity Typing [36.14308856513851]
本研究では,未知のラベル付き雑音分布を入力コンテキストおよび雑音型ラベル上で推定するノイズモデルを構築した。
ノイズモデルにより、推定ノイズを入力から減じることで、より信頼できるラベルを復元することができる。
本稿では,バイエンコーダアーキテクチャを採用したエンティティ型付けモデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T05:20:16Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z) - NAT: Noise-Aware Training for Robust Neural Sequence Labeling [30.91638109413785]
入力におけるシーケンスラベリングのロバスト性を改善する2つのノイズ・アウェア・トレーニング(NAT)目標を提案する。
我々のデータ拡張法は、クリーンなサンプルとノイズの多いサンプルの混合を用いてニューラルモデルを訓練する一方、安定性のトレーニングアルゴリズムは、ノイズ不変の潜在表現を作成することを奨励する。
英語とドイツ語の名前付きエンティティ認識ベンチマークの実験では、NATは人気のあるシークエンスラベリングモデルの堅牢性を一貫して改善した。
論文 参考訳(メタデータ) (2020-05-14T17:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。