Fugu-MT 論文翻訳(概要): Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies

論文の概要: Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies

arxiv url: http://arxiv.org/abs/2503.20579v1
Date: Wed, 26 Mar 2025 14:25:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.201231
Title: Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies
Title（参考訳）: すべて再利用は必要か? : 正規表現合成戦略の体系的比較
Authors: Berk Çakar, Charles M. Sale, Sophie Chen, Ethan H. Burmane, Dongyoon Lee, James C. Davis,
Abstract要約: 著者: コンポジションタスクは専用の機械を活用できるほどユニークなものなのでしょうか? GitHubとRegExLibから抽出された新しいコンポジションタスクのデータセットを収集します。本評価では,新しい計量を含む複数の次元を用いて,2つの合成手法との比較を行った。
参考スコア（独自算出の注目度）: 5.503553586086489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Composing regular expressions (regexes) is a common but challenging engineering activity. Software engineers struggle with regex complexity, leading to defects, performance issues, and security vulnerabilities. Researchers have proposed tools to synthesize regexes automatically, and recent generative AI techniques are also promising. Meanwhile, developers commonly reuse existing regexes from Internet sources and codebases. In this study, we ask a simple question: are regex composition tasks unique enough to merit dedicated machinery, or is reuse all we need? We answer this question through a systematic evaluation of state-of-the-art regex reuse and synthesis strategies. We begin by collecting a novel dataset of regex composition tasks mined from GitHub and RegExLib (55,137 unique tasks with solution regexes). To address the absence of an automated regex reuse formulation, we introduce reuse-by-example, a Programming by Example (PbE) approach that leverages a curated database of production-ready regexes. Although all approaches can solve these composition tasks accurately, reuse-by-example and LLMs both do far better over the range of metrics we applied. Our evaluation then uses multiple dimensions, including a novel metric, to compare reuse-by-example against two synthesis approaches: formal regex synthesizers and generative AI (LLMs). Although all approaches can solve these composition tasks accurately, reuse and LLMs both do far better over the range of metrics we applied. Ceteris paribus, prefer the cheaper solution -- for regex composition, perhaps reuse is all you need. Our findings provide actionable insights for developers selecting regex composition strategies and inform the design of future tools to improve regex reliability in software systems.
Abstract（参考訳）: 正規表現 (regexes) を構成することは、一般的なが挑戦的なエンジニアリング活動である。ソフトウェアエンジニアは、欠陥やパフォーマンスの問題、セキュリティ上の脆弱性につながる、リジェックスの複雑さに苦しむ。研究者は、Regexを自動で合成するツールを提案しており、最近の生成AI技術も有望である。一方、開発者はインターネットソースやコードベースから既存のRegexを一般的に再利用する。そこで本研究では,Regexコンポジションタスクは,専用機械のメリットを十分に発揮できる程度にユニークなものなのか,あるいは必要なものはすべて再利用されているのか,という簡単な疑問を提起する。我々は,最先端のレゲックス再利用と合成戦略の体系的な評価を通じて,この問題に答える。最初はGitHubとRegExLib(55,137のユニークなタスクとソリューションRegex)から抽出した、新しいregexコンポジションタスクのデータセットを収集します。自動化されたregexの再利用形式が存在しないことに対処するため、プロダクション対応のregexのキュレートされたデータベースを活用するProgramming by Example(PbE)アプローチであるregexby-exampleを導入する。すべてのアプローチがこれらの構成タスクを正確に解くことができるが、再利用バイサンプルとLCMはどちらも、私たちが適用したメトリクスの範囲よりもはるかに優れている。評価では,新しいメトリクスを含む複数の次元を用いて,2つの合成手法であるフォーマルレジェクス合成器とジェネレーティブAI(LLM)を比較した。すべてのアプローチがこれらの構成タスクを正確に解くことができるが、再利用とLLMはどちらも、私たちが適用したメトリクスの範囲よりもはるかに優れている。 Ceteris paribus氏は、Regexコンポジションにとって、より安価なソリューションを好む。本研究は,ソフトウェアシステムにおけるRegexコンポジション戦略の選択と,Regexコンポジションの信頼性向上のための将来のツールの設計について報告する。

関連論文リスト

Towards the Systematic Testing of Regular Expression Engines [8.561133495117675]
ReTestは、正規表現エンジンを体系的にテストするフレームワークである。文法を意識したファジィングをハイコードカバレッジとメタモルフィックテストを組み合わせて、方言に依存しないテストオラクルを生成する。 PCREに関する予備評価では、ReTestは既存のファジィ手法よりも3倍高いエッジカバレッジを実現している。
論文参考訳（メタデータ） (2026-02-27T21:00:31Z)
RegexPSPACE: A Benchmark for Evaluating LLM Reasoning on PSPACE-complete Regex Problems [9.63813674229442]
大規模言語モデル(LLM)は、自然言語処理(NLP)、数学的推論、プログラミングにおいて強い性能を示す。等価決定(RegexEQ)と最小化(RegexMin)という2つのPSPACE完全正規表現(regex)問題に基礎を置く新しいベンチマークを導入する。様々なスケールの6LLMと5LRMに対して広範囲に評価を行い、冗長性や繰り返しといった共通の障害パターンを明らかにした。
論文参考訳（メタデータ） (2025-10-10T10:13:47Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Neuro-Symbolic Query Compiler [57.78201019000895]
本稿では,このギャップを埋めるために,言語文法規則とコンパイラ設計に触発されたニューラルシンボリックなフレームワークQCompilerを提案する。理論上は、複雑なクエリを形式化するのに最小でも十分なバックス・ナウアー形式(BNF)の文法を$G[q]$で設計する。葉のサブクエリの原子性は、より正確な文書検索と応答生成を保証し、複雑なクエリに対処するRAGシステムの能力を大幅に改善する。
論文参考訳（メタデータ） (2025-05-17T09:36:03Z)
Extracting Explainable Dates From Medical Images By Reverse-Engineering UNIX Timestamps [0.0]
正規表現は正規表現合成によって生成され、テキストの書き起こしにおいて複雑な日付と日付範囲を識別できることを示す。そこで本研究では,複数の多点写像を逆エンジニアリングし,それらを正規表現合成器に入力することで決定論的論理を学習する手法を提案する。
論文参考訳（メタデータ） (2025-05-16T17:07:14Z)
In-Context Learning for Extreme Multi-Label Classification [29.627891261947536]
数千のクラスを持つマルチラベル分類問題は、文脈内学習だけでは解決が難しい。本稿では,これらの問題に効率的に対処するために,LMとレトリバー間のマルチステップインタラクションを定義する汎用プログラムを提案する。我々のソリューションは微調整を必要とせず、新しいタスクに容易に適用でき、迅速なエンジニアリングを緩和し、ラベル付きサンプルを数十個しか必要としない。
論文参考訳（メタデータ） (2024-01-22T18:09:52Z)
Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究 CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。 SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文参考訳（メタデータ） (2023-09-28T14:33:20Z)
Toward Unified Controllable Text Generation via Regular Expression Instruction [56.68753672187368]
本稿では,正規表現の利点をフル活用し,多様な制約を一様にモデル化する命令ベース機構を用いた正規表現指導(REI)を提案する。提案手法では,中規模言語モデルの微調整や,大規模言語モデルでの少数ショット・インコンテクスト学習のみを要し,各種制約の組み合わせに適用した場合のさらなる調整は不要である。
論文参考訳（メタデータ） (2023-09-19T09:05:14Z)
Correct and Optimal: the Regular Expression Inference Challenge [10.899596368151892]
コード/言語モデリングの課題として正規表現推論(REI)を提案する。私たちはREIのための最初の大規模データセットを作成し、公開します。
論文参考訳（メタデータ） (2023-08-15T17:40:10Z)
ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文参考訳（メタデータ） (2023-07-26T01:07:52Z)
Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文参考訳（メタデータ） (2022-12-19T11:26:23Z)
Neuro-Symbolic Regex Synthesis Framework via Neural Example Splitting [8.076841611508488]
ニューラル・サンプル・スプリッティングと呼ばれる新しいアプローチを頼りにすることで、正弦と負弦からより高速に学習列を学習する問題に取り組む」。提案手法は,正の文字列から類似文字列をグループ化するニューラルネットワークを用いて,各サンプル文字列を複数の部分に分割する。本研究では,スプリット陽性からサブレゲックスを合成し,合成したサブレゲックスを連結して最終結果を生成する,SplitRegex'という効率的な合成フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-20T05:55:24Z)
Three Sentences Are All You Need: Local Path Enhanced Document Relation Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文参考訳（メタデータ） (2021-06-03T12:29:40Z)
FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions [5.21480688623047]
デジタルフォームバリデーションのための正規表現シンセサイザーであるFORESTについて紹介する。 forestryは入力値の所望のパターンにマッチする正規表現を生成する。また、与えられた正規表現のキャプチャ条件を合成する新しいSMTエンコーディングも提案する。
論文参考訳（メタデータ） (2020-12-28T14:06:01Z)
Benchmarking Multimodal Regex Synthesis with Complex Structures [45.35689345004124]
自然言語から正規表現(regex)を生成する既存のデータセットは、複雑さに制限されている。従来のものと異なる新しい合成データセットであるStructuredRegexを3つの側面で紹介する。
論文参考訳（メタデータ） (2020-05-02T00:16:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。