論文の概要: Benchmarking Multimodal Regex Synthesis with Complex Structures
- arxiv url: http://arxiv.org/abs/2005.00663v1
- Date: Sat, 2 May 2020 00:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:26:43.399038
- Title: Benchmarking Multimodal Regex Synthesis with Complex Structures
- Title(参考訳): 複素構造を持つマルチモーダルレゲックス合成のベンチマーク
- Authors: Xi Ye, Qiaochu Chen, Isil Dillig and Greg Durrett
- Abstract要約: 自然言語から正規表現(regex)を生成する既存のデータセットは、複雑さに制限されている。
従来のものと異なる新しい合成データセットであるStructuredRegexを3つの側面で紹介する。
- 参考スコア(独自算出の注目度): 45.35689345004124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing datasets for regular expression (regex) generation from natural
language are limited in complexity; compared to regex tasks that users post on
StackOverflow, the regexes in these datasets are simple, and the language used
to describe them is not diverse. We introduce StructuredRegex, a new regex
synthesis dataset differing from prior ones in three aspects. First, to obtain
structurally complex and realistic regexes, we generate the regexes using a
probabilistic grammar with pre-defined macros observed from real-world
StackOverflow posts. Second, to obtain linguistically diverse natural language
descriptions, we show crowdworkers abstract depictions of the underlying regex
and ask them to describe the pattern they see, rather than having them
paraphrase synthetic language. Third, we augment each regex example with a
collection of strings that are and are not matched by the ground truth regex,
similar to how real users give examples. Our quantitative and qualitative
analysis demonstrates the advantages of StructuredRegex over prior datasets.
Further experimental results using various multimodal synthesis techniques
highlight the challenge presented by our dataset, including non-local
constraints and multi-modal inputs.
- Abstract(参考訳): 自然言語からの正規表現(regex)生成のための既存のデータセットは複雑さに制限があり、ユーザがstackoverflowに投稿するregexタスクと比較すると、これらのデータセットのregexは単純であり、それらを記述するのに使われる言語は多様ではない。
従来とは3つの点で異なる新しいregex合成データセットであるStructuredRegexを紹介した。
まず,実世界のStackOverflowポストから事前に定義されたマクロを持つ確率論的文法を用いて,構造的に複雑で現実的なRegexを得る。
第二に, 言語的に多様な自然言語記述を得るため, 群集作業者は基礎となるレゲックスを抽象的に表現し, それらのパターンを言い換えるのではなく, 記述するよう求める。
第3に、実際のユーザが例を示すのと同じように、基底真理regexと一致しない文字列の集まりで、各regexの例を拡張します。
定量的・定性的な分析により,事前データセットに対するstructuredregexの利点が証明された。
様々なマルチモーダル合成技術を用いたさらなる実験の結果は、非局所制約やマルチモーダル入力を含むデータセットが提示する課題を浮き彫りにする。
関連論文リスト
- Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - Correct and Optimal: the Regular Expression Inference Challenge [10.899596368151892]
コード/言語モデリングの課題として正規表現推論(REI)を提案する。
私たちはREIのための最初の大規模データセットを作成し、公開します。
論文 参考訳(メタデータ) (2023-08-15T17:40:10Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Neuro-Symbolic Regex Synthesis Framework via Neural Example Splitting [8.076841611508488]
ニューラル・サンプル・スプリッティングと呼ばれる新しいアプローチを頼りにすることで、正弦と負弦からより高速に学習列を学習する問題に取り組む」。
提案手法は,正の文字列から類似文字列をグループ化するニューラルネットワークを用いて,各サンプル文字列を複数の部分に分割する。
本研究では,スプリット陽性からサブレゲックスを合成し,合成したサブレゲックスを連結して最終結果を生成する,SplitRegex'という効率的な合成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T05:55:24Z) - Improving Structured Text Recognition with Regular Expression Biasing [13.801707647700727]
本研究では,ある形式に従う構造化テキストの認識の問題について検討する。
偏見の正規表現 (regexes) を指定することにより, 構造化テキストの認識精度を向上させることを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:12:05Z) - FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions [5.21480688623047]
デジタルフォームバリデーションのための正規表現シンセサイザーであるFORESTについて紹介する。
forestryは入力値の所望のパターンにマッチする正規表現を生成する。
また、与えられた正規表現のキャプチャ条件を合成する新しいSMTエンコーディングも提案する。
論文 参考訳(メタデータ) (2020-12-28T14:06:01Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。