論文の概要: Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies
- arxiv url: http://arxiv.org/abs/2503.20579v2
- Date: Tue, 23 Sep 2025 23:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.169391
- Title: Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies
- Title(参考訳): すべて再利用は必要か? : 正規表現合成戦略の体系的比較
- Authors: Berk Çakar, Charles M. Sale, Sophie Chen, Dongyoon Lee, James C. Davis,
- Abstract要約: 合成は一般的ですが 難しいエンジニアリング活動です
開発者はソースから既存のコンポジションを一般的に再利用する。
現在までに、これらの様々な構成戦略と比較する作業は行われていない。
- 参考スコア(独自算出の注目度): 7.304676960008862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composing regexes is a common but challenging engineering activity. Software engineers struggle with regex complexity, leading to defects, performance issues, and security vulnerabilities. Researchers have proposed tools to synthesize regexes automatically, and recent advances in LLMs have also shown promise in generating regexes. Meanwhile, developers commonly reuse existing regexes from codebases and internet sources. No work to date has compared these various regex composition strategies, leaving software engineers unaware about which to use and researchers uncertain about open problems. We address this gap through a systematic evaluation of regex reuse, formal synthesis, and LLM-based generation strategies. We curate a novel dataset of 901,516 regexes mined from open-source software projects and internet sources (RegexReuseDB), accompanied by a set of 55,448 regex composition tasks defined by a target regex and its corresponding positive and negative string pairs (RegexCompBench). To address the absence of an automated regex reuse formulation, we design and implement reuse-by-example, the first programming by example approach that leverages RegexReuseDB. Our evaluation then benchmarks reuse-by-example, formal synthesizers, and LLMs on many aspects of interest to software engineers, including accuracy, maintainability, computational efficiency, and result diversity. Although all three approaches solve most composition tasks accurately, only reuse-by-example and LLMs excel over the range of metrics we applied, and reuse-by-example in particular offers engineers the variance in candidates that they say they find helpful. Ceteris paribus, prefer the cheaper solution--for regex composition, perhaps reuse is all you need. Our findings provide insights for developers selecting regex composition strategies and inform the design of tools to improve regex reliability in software systems.
- Abstract(参考訳): レジェクシスを構成することは、一般的なが挑戦的なエンジニアリング活動である。
ソフトウェアエンジニアは、欠陥やパフォーマンスの問題、セキュリティ上の脆弱性につながる、リジェックスの複雑さに苦しむ。
研究者は、レゲックスを自動で合成するツールを提案しており、最近のLSMの進歩は、レゲックスを生成するための約束も示している。
一方、開発者はコードベースやインターネットソースから既存のRegexを一般的に再利用する。
ソフトウェア技術者は、どのツールを使うべきかを知らないままにし、研究者はオープンな問題について不確実なままである。
我々はこのギャップを,レジェクスの再利用,形式的合成,LLMに基づく生成戦略の体系的評価を通じて解決する。
我々は、オープンソースのソフトウェアプロジェクトやインターネットソース(RegexReuseDB)から抽出した901,516個のRegexの新しいデータセットを、ターゲットのregexとその対応する正と負の文字列ペア(RegexCompBench)によって定義された55,448個のregex合成タスクを伴って、キュレートする。
自動Regex再利用形式が存在しないことに対処するため、RegexReuseDBを利用した最初の例によるプログラミング手法であるRegex-by-exampleを設計、実装する。
評価では,ソフトウェア技術者への関心の多くの側面(精度,保守性,計算効率,結果の多様性など)について,再利用・サンプル・フォーマルシンセサイザー・LCMのベンチマークを行った。
3つのアプローチはすべて、ほとんどのコンポジションタスクを正確に解決しますが、私たちが適用したメトリクスの範囲で、再利用バイサンプルとLCMだけが優れています。
Ceteris paribus氏は、より安価なソリューションを好む。
本研究は,ソフトウェアシステムにおけるRegexコンポジション戦略を選択する開発者に対して,Regexコンポジション戦略の選択と,Regexコンポジションの信頼性向上のためのツール設計に関する知見を提供する。
関連論文リスト
- Neuro-Symbolic Query Compiler [57.78201019000895]
本稿では,このギャップを埋めるために,言語文法規則とコンパイラ設計に触発されたニューラルシンボリックなフレームワークQCompilerを提案する。
理論上は、複雑なクエリを形式化するのに最小でも十分なバックス・ナウアー形式(BNF)の文法を$G[q]$で設計する。
葉のサブクエリの原子性は、より正確な文書検索と応答生成を保証し、複雑なクエリに対処するRAGシステムの能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-17T09:36:03Z) - Extracting Explainable Dates From Medical Images By Reverse-Engineering UNIX Timestamps [0.0]
正規表現は正規表現合成によって生成され、テキストの書き起こしにおいて複雑な日付と日付範囲を識別できることを示す。
そこで本研究では,複数の多点写像を逆エンジニアリングし,それらを正規表現合成器に入力することで決定論的論理を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T17:07:14Z) - In-Context Learning for Extreme Multi-Label Classification [29.627891261947536]
数千のクラスを持つマルチラベル分類問題は、文脈内学習だけでは解決が難しい。
本稿では,これらの問題に効率的に対処するために,LMとレトリバー間のマルチステップインタラクションを定義する汎用プログラムを提案する。
我々のソリューションは微調整を必要とせず、新しいタスクに容易に適用でき、迅速なエンジニアリングを緩和し、ラベル付きサンプルを数十個しか必要としない。
論文 参考訳(メタデータ) (2024-01-22T18:09:52Z) - Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - Toward Unified Controllable Text Generation via Regular Expression
Instruction [56.68753672187368]
本稿では,正規表現の利点をフル活用し,多様な制約を一様にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。
提案手法では,中規模言語モデルの微調整や,大規模言語モデルでの少数ショット・インコンテクスト学習のみを要し,各種制約の組み合わせに適用した場合のさらなる調整は不要である。
論文 参考訳(メタデータ) (2023-09-19T09:05:14Z) - Correct and Optimal: the Regular Expression Inference Challenge [10.899596368151892]
コード/言語モデリングの課題として正規表現推論(REI)を提案する。
私たちはREIのための最初の大規模データセットを作成し、公開します。
論文 参考訳(メタデータ) (2023-08-15T17:40:10Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Neuro-Symbolic Regex Synthesis Framework via Neural Example Splitting [8.076841611508488]
ニューラル・サンプル・スプリッティングと呼ばれる新しいアプローチを頼りにすることで、正弦と負弦からより高速に学習列を学習する問題に取り組む」。
提案手法は,正の文字列から類似文字列をグループ化するニューラルネットワークを用いて,各サンプル文字列を複数の部分に分割する。
本研究では,スプリット陽性からサブレゲックスを合成し,合成したサブレゲックスを連結して最終結果を生成する,SplitRegex'という効率的な合成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T05:55:24Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z) - FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions [5.21480688623047]
デジタルフォームバリデーションのための正規表現シンセサイザーであるFORESTについて紹介する。
forestryは入力値の所望のパターンにマッチする正規表現を生成する。
また、与えられた正規表現のキャプチャ条件を合成する新しいSMTエンコーディングも提案する。
論文 参考訳(メタデータ) (2020-12-28T14:06:01Z) - Benchmarking Multimodal Regex Synthesis with Complex Structures [45.35689345004124]
自然言語から正規表現(regex)を生成する既存のデータセットは、複雑さに制限されている。
従来のものと異なる新しい合成データセットであるStructuredRegexを3つの側面で紹介する。
論文 参考訳(メタデータ) (2020-05-02T00:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。