論文の概要: An Investigation of Noise in Morphological Inflection
- arxiv url: http://arxiv.org/abs/2305.16581v1
- Date: Fri, 26 May 2023 02:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:18:13.506399
- Title: An Investigation of Noise in Morphological Inflection
- Title(参考訳): 形態的インフレクションにおけるノイズの検討
- Authors: Adam Wiemerslage, Changbing Yang, Garrett Nicolai, Miikka Silfverberg,
and Katharina Kann
- Abstract要約: 本研究は, パイプライン内で発生するノイズの種類を, 真の教師なし形態素パラダイムの完成のために検討する。
異なる種類のノイズが複数の最先端インフレクションモデルに与える影響を比較した。
本稿では,文字レベルのマスク付き言語モデリング(CMLM)の事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 21.411766936034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With a growing focus on morphological inflection systems for languages where
high-quality data is scarce, training data noise is a serious but so far
largely ignored concern. We aim at closing this gap by investigating the types
of noise encountered within a pipeline for truly unsupervised morphological
paradigm completion and its impact on morphological inflection systems: First,
we propose an error taxonomy and annotation pipeline for inflection training
data. Then, we compare the effect of different types of noise on multiple
state-of-the-art inflection models. Finally, we propose a novel character-level
masked language modeling (CMLM) pretraining objective and explore its impact on
the models' resistance to noise. Our experiments show that various
architectures are impacted differently by separate types of noise, but
encoder-decoders tend to be more robust to noise than models trained with a
copy bias. CMLM pretraining helps transformers, but has lower impact on LSTMs.
- Abstract(参考訳): 高品質なデータが不足している言語のための形態的インフレクションシステムに注目が集まる中、トレーニングデータノイズは深刻な問題だが、これまでほとんど無視されてきた。
本稿では,このギャップを解消するために,真に教師なしの形態的パラダイム完全化のためのパイプライン内で発生する雑音の種類と形態的変形システムへの影響について検討する。
次に、異なる種類のノイズが複数の最先端インフレクションモデルに与える影響を比較する。
最後に,新しいキャラクタレベルマスキング言語モデリング(cmlm)の事前学習目標を提案し,そのモデルに対する雑音耐性への影響について検討する。
実験により,様々なアーキテクチャが異なる種類のノイズによって異なる影響を受けることが示されたが,エンコーダ・デコーダはコピーバイアスで学習したモデルよりも,ノイズに対して頑健な傾向がみられた。
CMLMプレトレーニングはトランスフォーマーに役立つが、LSTMへの影響は低い。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Can We Transfer Noise Patterns? A Multi-environment Spectrum Analysis
Model Using Generated Cases [10.876490928902838]
スペクトルデータベースのテストデバイスは、非作業環境にデプロイされた場合、複雑なノイズパターンに悩まされる。
本研究では,異なる環境における標準試料のスペクトルを事例として,そのノイズパターンの違いを学習するノイズパターン伝達モデルを提案する。
サンプルからサンプルまでのケースベースを生成し、データセットレベルのノイズ学習におけるサンプルレベルのノイズの干渉を排除する。
論文 参考訳(メタデータ) (2023-08-02T13:29:31Z) - Unsupervised speech enhancement with deep dynamical generative speech
and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。
本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文 参考訳(メタデータ) (2023-06-13T14:52:35Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Effect of Batch Normalization on Noise Resistant Property of Deep
Learning Models [3.520496620951778]
モデルの重みに変化をもたらすアナログノイズの存在が、ディープラーニングモデルの性能劣化を引き起こすという懸念がある。
本研究では,一般的なバッチ正規化層がディープラーニングモデルの耐雑音性に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2022-05-15T20:10:21Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。