論文の概要: Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies
- arxiv url: http://arxiv.org/abs/2503.20579v1
- Date: Wed, 26 Mar 2025 14:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:38.709013
- Title: Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies
- Title(参考訳): すべて再利用は必要か? : 正規表現合成戦略の体系的比較
- Authors: Berk Çakar, Charles M. Sale, Sophie Chen, Ethan H. Burmane, Dongyoon Lee, James C. Davis,
- Abstract要約: 著者: コンポジションタスクは専用の機械を活用できるほどユニークなものなのでしょうか?
GitHubとRegExLibから抽出された新しいコンポジションタスクのデータセットを収集します。
本評価では,新しい計量を含む複数の次元を用いて,2つの合成手法との比較を行った。
- 参考スコア(独自算出の注目度): 5.503553586086489
- License:
- Abstract: Composing regular expressions (regexes) is a common but challenging engineering activity. Software engineers struggle with regex complexity, leading to defects, performance issues, and security vulnerabilities. Researchers have proposed tools to synthesize regexes automatically, and recent generative AI techniques are also promising. Meanwhile, developers commonly reuse existing regexes from Internet sources and codebases. In this study, we ask a simple question: are regex composition tasks unique enough to merit dedicated machinery, or is reuse all we need? We answer this question through a systematic evaluation of state-of-the-art regex reuse and synthesis strategies. We begin by collecting a novel dataset of regex composition tasks mined from GitHub and RegExLib (55,137 unique tasks with solution regexes). To address the absence of an automated regex reuse formulation, we introduce reuse-by-example, a Programming by Example (PbE) approach that leverages a curated database of production-ready regexes. Although all approaches can solve these composition tasks accurately, reuse-by-example and LLMs both do far better over the range of metrics we applied. Our evaluation then uses multiple dimensions, including a novel metric, to compare reuse-by-example against two synthesis approaches: formal regex synthesizers and generative AI (LLMs). Although all approaches can solve these composition tasks accurately, reuse and LLMs both do far better over the range of metrics we applied. Ceteris paribus, prefer the cheaper solution -- for regex composition, perhaps reuse is all you need. Our findings provide actionable insights for developers selecting regex composition strategies and inform the design of future tools to improve regex reliability in software systems.
- Abstract(参考訳): 正規表現 (regexes) を構成することは、一般的なが挑戦的なエンジニアリング活動である。
ソフトウェアエンジニアは、欠陥やパフォーマンスの問題、セキュリティ上の脆弱性につながる、リジェックスの複雑さに苦しむ。
研究者は、Regexを自動で合成するツールを提案しており、最近の生成AI技術も有望である。
一方、開発者はインターネットソースやコードベースから既存のRegexを一般的に再利用する。
そこで本研究では,Regexコンポジションタスクは,専用機械のメリットを十分に発揮できる程度にユニークなものなのか,あるいは必要なものはすべて再利用されているのか,という簡単な疑問を提起する。
我々は,最先端のレゲックス再利用と合成戦略の体系的な評価を通じて,この問題に答える。
最初はGitHubとRegExLib(55,137のユニークなタスクとソリューションRegex)から抽出した、新しいregexコンポジションタスクのデータセットを収集します。
自動化されたregexの再利用形式が存在しないことに対処するため、プロダクション対応のregexのキュレートされたデータベースを活用するProgramming by Example(PbE)アプローチであるregexby-exampleを導入する。
すべてのアプローチがこれらの構成タスクを正確に解くことができるが、再利用バイサンプルとLCMはどちらも、私たちが適用したメトリクスの範囲よりもはるかに優れている。
評価では,新しいメトリクスを含む複数の次元を用いて,2つの合成手法であるフォーマルレジェクス合成器とジェネレーティブAI(LLM)を比較した。
すべてのアプローチがこれらの構成タスクを正確に解くことができるが、再利用とLLMはどちらも、私たちが適用したメトリクスの範囲よりもはるかに優れている。
Ceteris paribus氏は、Regexコンポジションにとって、より安価なソリューションを好む。
本研究は,ソフトウェアシステムにおけるRegexコンポジション戦略の選択と,Regexコンポジションの信頼性向上のための将来のツールの設計について報告する。
関連論文リスト
- In-Context Learning for Extreme Multi-Label Classification [29.627891261947536]
数千のクラスを持つマルチラベル分類問題は、文脈内学習だけでは解決が難しい。
本稿では,これらの問題に効率的に対処するために,LMとレトリバー間のマルチステップインタラクションを定義する汎用プログラムを提案する。
我々のソリューションは微調整を必要とせず、新しいタスクに容易に適用でき、迅速なエンジニアリングを緩和し、ラベル付きサンプルを数十個しか必要としない。
論文 参考訳(メタデータ) (2024-01-22T18:09:52Z) - Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - Toward Unified Controllable Text Generation via Regular Expression
Instruction [56.68753672187368]
本稿では,正規表現の利点をフル活用し,多様な制約を一様にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。
提案手法では,中規模言語モデルの微調整や,大規模言語モデルでの少数ショット・インコンテクスト学習のみを要し,各種制約の組み合わせに適用した場合のさらなる調整は不要である。
論文 参考訳(メタデータ) (2023-09-19T09:05:14Z) - Correct and Optimal: the Regular Expression Inference Challenge [10.899596368151892]
コード/言語モデリングの課題として正規表現推論(REI)を提案する。
私たちはREIのための最初の大規模データセットを作成し、公開します。
論文 参考訳(メタデータ) (2023-08-15T17:40:10Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Neuro-Symbolic Regex Synthesis Framework via Neural Example Splitting [8.076841611508488]
ニューラル・サンプル・スプリッティングと呼ばれる新しいアプローチを頼りにすることで、正弦と負弦からより高速に学習列を学習する問題に取り組む」。
提案手法は,正の文字列から類似文字列をグループ化するニューラルネットワークを用いて,各サンプル文字列を複数の部分に分割する。
本研究では,スプリット陽性からサブレゲックスを合成し,合成したサブレゲックスを連結して最終結果を生成する,SplitRegex'という効率的な合成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T05:55:24Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z) - FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions [5.21480688623047]
デジタルフォームバリデーションのための正規表現シンセサイザーであるFORESTについて紹介する。
forestryは入力値の所望のパターンにマッチする正規表現を生成する。
また、与えられた正規表現のキャプチャ条件を合成する新しいSMTエンコーディングも提案する。
論文 参考訳(メタデータ) (2020-12-28T14:06:01Z) - Benchmarking Multimodal Regex Synthesis with Complex Structures [45.35689345004124]
自然言語から正規表現(regex)を生成する既存のデータセットは、複雑さに制限されている。
従来のものと異なる新しい合成データセットであるStructuredRegexを3つの側面で紹介する。
論文 参考訳(メタデータ) (2020-05-02T00:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。