論文の概要: Revisiting Regex Generation for Modeling Industrial Applications by
Incorporating Byte Pair Encoder
- arxiv url: http://arxiv.org/abs/2005.02558v2
- Date: Wed, 24 Jun 2020 07:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 04:47:40.159920
- Title: Revisiting Regex Generation for Modeling Industrial Applications by
Incorporating Byte Pair Encoder
- Title(参考訳): バイトペアエンコーダを組み込んだ産業応用モデリングのためのレゲックス生成の再検討
- Authors: Desheng Wang, Jiawei Liu, Xiang Qi, Baolin Sun, Peng Zhang
- Abstract要約: 本研究は正規表現の自動生成に焦点を当て,この問題に対処する新しい遺伝的アルゴリズムを提案する。
まずバイトペアエンコーダ(BPE)を用いて頻繁な項目を抽出し,次に正規表現を構築する。
指数減衰を行うことで、トレーニング速度は指数崩壊を使わずに、手法の約100倍の速度となる。
- 参考スコア(独自算出の注目度): 14.42244606935982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Regular expression is important for many natural language processing tasks
especially when used to deal with unstructured and semi-structured data. This
work focuses on automatically generating regular expressions and proposes a
novel genetic algorithm to deal with this problem. Different from the methods
which generate regular expressions from character level, we first utilize byte
pair encoder (BPE) to extract some frequent items, which are then used to
construct regular expressions. The fitness function of our genetic algorithm
contains multi objectives and is solved based on evolutionary procedure
including crossover and mutation operation. In the fitness function, we take
the length of generated regular expression, the maximum matching characters and
samples for positive training samples, and the minimum matching characters and
samples for negative training samples into consideration. In addition, to
accelerate the training process, we do exponential decay on the population size
of the genetic algorithm. Our method together with a strong baseline is tested
on 13 kinds of challenging datasets. The results demonstrate the effectiveness
of our method, which outperforms the baseline on 10 kinds of data and achieves
nearly 50 percent improvement on average. By doing exponential decay, the
training speed is approximately 100 times faster than the methods without using
exponential decay. In summary, our method possesses both effectiveness and
efficiency, and can be implemented for the industry application.
- Abstract(参考訳): 正規表現は多くの自然言語処理タスクにおいて特に非構造化データや半構造化データを扱う際に重要である。
本研究は正規表現の自動生成に着目し,この問題に対処する新しい遺伝的アルゴリズムを提案する。
文字レベルから正規表現を生成する手法とは違って,まずバイトペアエンコーダ(bpe)を使用して頻繁な項目を抽出し,正規表現の構築に使用する。
遺伝的アルゴリズムの適合度関数は多目的を含み,クロスオーバーおよび突然変異操作を含む進化的手順に基づいて解決される。
適合度関数では、生成した正規表現の長さ、正のトレーニングサンプルに対する最大整合文字とサンプル、負のトレーニングサンプルに対する最小整合文字とサンプルを考慮に入れた。
さらに, 学習過程を高速化するために, 遺伝的アルゴリズムの個体群サイズを指数関数的に劣化させる。
提案手法は,13種類の挑戦的データセットを用いて,強力なベースラインとともに検証する。
その結果,10種類のデータに対してベースラインを上回り,平均50%近い改善を達成できる手法の有効性が示された。
指数減衰を行うことで、トレーニング速度は指数崩壊を使わずに、手法の約100倍の速度となる。
要約すると,本手法は有効性と効率性の両方を有し,産業応用に適用可能である。
関連論文リスト
- Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Convolutional Sparse Coding Fast Approximation with Application to
Seismic Reflectivity Estimation [9.005280130480308]
2~5回の反復で畳み込みスパース符号の良好な近似を生成する古典的反復しきい値アルゴリズムの高速化版を提案する。
提案手法の性能は, 合成シナリオと実データシナリオの両方において, 地震インバージョン問題によって実証される。
論文 参考訳(メタデータ) (2021-06-29T12:19:07Z) - SparseGAN: Sparse Generative Adversarial Network for Text Generation [8.634962333084724]
本稿では,識別器への入力として,意味解釈可能ながスパース文表現を生成するスパースGANを提案する。
このような意味豊かな表現により、効率の良い対人訓練のための不要なノイズを低減できるだけでなく、学習過程全体を完全に差別化できる。
論文 参考訳(メタデータ) (2021-03-22T04:44:43Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Data-Driven Regular Expressions Evolution for Medical Text
Classification Using Genetic Programming [0.0]
本研究では,正規表現を進化させるために,遺伝的プログラミング(GP)アプローチを用いた新しい正規表現に基づくテキスト分類手法を提案する。
本手法は,オンライン医療提供者からのリアルタイム医療用テキスト調査を用いて評価し,有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-12-04T03:44:46Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。