論文の概要: FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions
- arxiv url: http://arxiv.org/abs/2012.14235v1
- Date: Mon, 28 Dec 2020 14:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 12:28:43.167896
- Title: FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions
- Title(参考訳): FOREST: 正規表現のための対話型マルチツリー合成器
- Authors: Margarida Ferreira and Miguel Terra-Neves and Miguel Ventura and
In\^es Lynce and Ruben Martins
- Abstract要約: デジタルフォームバリデーションのための正規表現シンセサイザーであるFORESTについて紹介する。
forestryは入力値の所望のパターンにマッチする正規表現を生成する。
また、与えられた正規表現のキャプチャ条件を合成する新しいSMTエンコーディングも提案する。
- 参考スコア(独自算出の注目度): 5.21480688623047
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Form validators based on regular expressions are often used on digital forms
to prevent users from inserting data in the wrong format. However, writing
these validators can pose a challenge to some users. We present FOREST, a
regular expression synthesizer for digital form validations. FOREST produces a
regular expression that matches the desired pattern for the input values and a
set of conditions over capturing groups that ensure the validity of integer
values in the input. Our synthesis procedure is based on enumerative search and
uses a Satisfiability Modulo Theories (SMT) solver to explore and prune the
search space. We propose a novel representation for regular expressions
synthesis, multi-tree, which induces patterns in the examples and uses them to
split the problem through a divide-and-conquer approach. We also present a new
SMT encoding to synthesize capture conditions for a given regular expression.
To increase confidence in the synthesized regular expression, we implement user
interaction based on distinguishing inputs. We evaluated FOREST on real-world
form-validation instances using regular expressions. Experimental results show
that FOREST successfully returns the desired regular expression in 72% of the
instances and outperforms REGEL, a state-of-the-art regular expression
synthesizer.
- Abstract(参考訳): 正規表現に基づくフォームバリデータはしばしば、ユーザが間違ったフォーマットにデータを挿入しないようにデジタル形式で使用される。
しかし、これらのバリデータを書くことは、一部のユーザーに挑戦をもたらす可能性がある。
本稿では,デジタル形式検証のための正規表現合成器FOESTを提案する。
FORESTは、入力値の所望のパターンと入力内の整数値の有効性を保証するグループをキャプチャする条件のセットとを一致させる正規表現を生成する。
合成手順は列挙探索に基づいており、探索空間を探索・プルークするためにSMT(Satisfiability Modulo Theories)ソルバを用いている。
本稿では,正規表現合成のための新しい表現であるmulti-treeを提案する。
また、与えられた正規表現のキャプチャ条件を合成する新しいSMT符号化を提案する。
合成正規表現の信頼性を高めるために,入力の識別に基づくユーザインタラクションを実装した。
正規表現を用いた実世界のフォームバリデーションインスタンスにおけるforestの評価を行った。
実験の結果、FOESTは72%のインスタンスで所望の正規表現を返却し、最先端の正規表現シンセサイザーであるREGELを上回った。
関連論文リスト
- Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。
その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:46:19Z) - Token Alignment via Character Matching for Subword Completion [34.76794239097628]
本稿では,生成モデルにおけるテキスト補完におけるトークン化アーティファクトの緩和手法について検討する。
この手法はトークンアライメントと呼ばれ、最後の完全なトークンをバックトラックし、モデルの生成がプロンプトと整合することを保証する。
論文 参考訳(メタデータ) (2024-03-13T16:44:39Z) - Real-time Regular Expression Matching [65.268245109828]
本稿では,有限状態オートマトン,正規表現マッチング,パターン認識,指数的爆破問題について述べる。
本稿では,正規言語の複雑なクラスに対する指数的爆破問題に対する理論的およびハードウェア的解法を提案する。
論文 参考訳(メタデータ) (2023-08-20T09:25:40Z) - Don't Prompt, Search! Mining-based Zero-Shot Learning with Language
Models [37.8952605358518]
BERTのようなマスキング言語モデルはゼロショット方式でテキスト分類を行うことができる。
ゼロショット学習のための代替的なマイニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T15:52:30Z) - Neuro-Symbolic Regex Synthesis Framework via Neural Example Splitting [8.076841611508488]
ニューラル・サンプル・スプリッティングと呼ばれる新しいアプローチを頼りにすることで、正弦と負弦からより高速に学習列を学習する問題に取り組む」。
提案手法は,正の文字列から類似文字列をグループ化するニューラルネットワークを用いて,各サンプル文字列を複数の部分に分割する。
本研究では,スプリット陽性からサブレゲックスを合成し,合成したサブレゲックスを連結して最終結果を生成する,SplitRegex'という効率的な合成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T05:55:24Z) - Improving Structured Text Recognition with Regular Expression Biasing [13.801707647700727]
本研究では,ある形式に従う構造化テキストの認識の問題について検討する。
偏見の正規表現 (regexes) を指定することにより, 構造化テキストの認識精度を向上させることを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:12:05Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z) - Benchmarking Multimodal Regex Synthesis with Complex Structures [45.35689345004124]
自然言語から正規表現(regex)を生成する既存のデータセットは、複雑さに制限されている。
従来のものと異なる新しい合成データセットであるStructuredRegexを3つの側面で紹介する。
論文 参考訳(メタデータ) (2020-05-02T00:16:09Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Multi-level Head-wise Match and Aggregation in Transformer for Textual
Sequence Matching [87.97265483696613]
そこで本研究では,複数のレベルにおける頭部のマッチング表現を学習することで,Transformerとのシーケンスペアマッチングを新たに提案する。
実験の結果,提案手法は複数のタスクにおいて新しい最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-01-20T20:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。