論文の概要: A Noise-tolerant Differentiable Learning Approach for Single Occurrence
Regular Expression with Interleaving
- arxiv url: http://arxiv.org/abs/2212.00373v1
- Date: Thu, 1 Dec 2022 09:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:05:38.308873
- Title: A Noise-tolerant Differentiable Learning Approach for Single Occurrence
Regular Expression with Interleaving
- Title(参考訳): インターリービングを用いた単発正規表現に対する耐雑音性差分学習手法
- Authors: Rongzhen Ye, Tianqu Zhuang, Hai Wan, Jianfeng Du, Weilin Luo, Pingjia
Liang
- Abstract要約: ノイズのある文字列の集合からインターリービング(SOIRE)を用いて単一発生正規表現を学習する問題について検討する。
以前の作業のほとんどは制限されたSOIREしか学習せず、ノイズの多いデータでは堅牢ではない。
本稿では,SOIREのための耐雑音性差分学習手法SOIREDLを提案する。
- 参考スコア(独自算出の注目度): 19.660606583532598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine the problem of learning a single occurrence regular expression
with interleaving (SOIRE) from a set of text strings with noise. SOIRE has
unrestricted support for interleaving and covers most of the regular
expressions in practice. Learning SOIREs is challenging because it needs heavy
computation and text strings usually contains noise in practice. Most of the
previous work only learns restricted SOIREs and is not robust on noisy data. To
tackle these issues, we proposea noise-tolerant differentiable learning
approach SOIREDL for SOIRE. We design a neural network to simulate SOIRE
matching of given text strings and theoretically prove that a class of the set
of parameters learnt by the neural network, called faithful encoding, is
one-to-one corresponding to SOIRE for a bounded size. Based on this
correspondence, we interpret the target SOIRE from the set of parameters of the
neural network by exploring nearest faithful encodings. Experimental results
show that SOIREDL outperforms the state-of-the-art approaches especially on
noisy data.
- Abstract(参考訳): ノイズのある文字列の集合からインターリービング(SOIRE)を用いて単一発生正規表現を学習する問題について検討する。
SOIREはインターリービングの制限のないサポートをしており、実際にはほとんどの正規表現をカバーしている。
SOIREの学習は、重い計算を必要とし、テキスト文字列は通常、実際にノイズを含むため、難しい。
以前の作業のほとんどは制限されたSOIREしか学習せず、ノイズの多いデータでは堅牢ではない。
これらの課題に対処するために,SOIREのためのSOIREDLを用いた雑音耐性微分学習手法を提案する。
我々は、与えられた文字列のSOIREマッチングをシミュレートするニューラルネットワークを設計し、ニューラルネットワークによって学習されたパラメータの集合のクラスが、有界サイズでSOIREに対応する1対1であることが理論的に証明する。
この対応に基づき、最も近い忠実な符号化を探索することにより、ニューラルネットワークのパラメータ集合からターゲットSOIREを解釈する。
実験の結果,SOIREDLは特にノイズの多いデータに対して,最先端のアプローチよりも優れていた。
関連論文リスト
- Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Boosted Locality Sensitive Hashing: Discriminative Binary Codes for
Source Separation [19.72987718461291]
音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的な促進手法を提案する。
我々は、複雑な機械学習モデルの代替として、学習したハッシュコードを単一チャネルの音声認識タスクに使用する。
論文 参考訳(メタデータ) (2020-02-14T20:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。