論文の概要: Finding XPath Bugs in XML Document Processors via Differential Testing
- arxiv url: http://arxiv.org/abs/2401.05112v1
- Date: Wed, 10 Jan 2024 12:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:41:18.799613
- Title: Finding XPath Bugs in XML Document Processors via Differential Testing
- Title(参考訳): 差分テストによるXMLドキュメントプロセッサのXPathバグ発見
- Authors: Shuxin Li and Manuel Rigger
- Abstract要約: 多くのXMLプロセッサは独自のクエリ言語をサポートしており、XMLドキュメントから要素を抽出できる。
これらのシステムは、プロセッサが誤った結果を返す原因となるバグであるロジックのバグによって影響を受ける可能性がある。
我々は,XPressと呼ばれるシステムとして実現した新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.991734012336718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extensible Markup Language (XML) is a widely used file format for data
storage and transmission. Many XML processors support XPath, a query language
that enables the extraction of elements from XML documents. These systems can
be affected by logic bugs, which are bugs that cause the processor to return
incorrect results. In order to tackle such bugs, we propose a new approach,
which we realized as a system called XPress. As a test oracle, XPress relies on
differential testing, which compares the results of multiple systems on the
same test input, and identifies bugs through discrepancies in their outputs. As
test inputs, XPress generates both XML documents and XPath queries. Aiming to
generate meaningful queries that compute non-empty results, XPress selects a
so-called targeted node to guide the XPath expression generation process. Using
the targeted node, XPress generates XPath expressions that reference existing
context related to the targeted node, such as its tag name and attributes,
while also guaranteeing that a predicate evaluates to true before further
expanding the query. We tested our approach on six mature XML processors,
BaseX, eXist-DB, Saxon, PostgreSQL, libXML2, and a commercial database system.
In total, we have found 20 unique bugs in these systems, of which 25 have been
verified by the developers, and 12 of which have been fixed. XPress is
efficient, as it finds 12 unique bugs in BaseX in 24 hours, which is 2x as fast
as naive random generation. We expect that the effectiveness and simplicity of
our approach will help to improve the robustness of many XML processors.
- Abstract(参考訳): Extensible Markup Language (XML)は、データストレージと送信のために広く使われているファイルフォーマットである。
多くのXMLプロセッサは、XMLドキュメントから要素を抽出できるクエリ言語XPathをサポートしている。
これらのシステムは、プロセッサが誤った結果を返すバグであるロジックバグに影響される可能性がある。
このようなバグに対処するために,我々はxpressと呼ばれるシステムとして実現した新しいアプローチを提案する。
テストオラクルとして、xpressは差分テストに依存しており、同じテスト入力で複数のシステムの結果を比較し、出力の相違によってバグを識別する。
テスト入力として、XPressはXMLドキュメントとXPathクエリの両方を生成する。
空でない結果を計算する意味のあるクエリを生成するために、XPressはXPath式生成プロセスをガイドするために、いわゆるターゲットノードを選択する。
ターゲットノードを使用することで、xpressは、タグ名や属性など、ターゲットノードに関連する既存のコンテキストを参照するxpath式を生成すると同時に、クエリをさらに拡張する前に述語がtrueに評価されることを保証する。
私たちは6つの成熟したXMLプロセッサ、BaseX、eXist-DB、サクソン、PostgreSQL、libXML2、および商用データベースシステムでアプローチをテストしました。
これらのシステムには20のユニークなバグがあり、そのうち25が開発者によって検証され、12が修正されている。
xpressは効率が良く、basexに24時間以内に12のユニークなバグを発見し、これはナイーブなランダム生成の2倍の速さだ。
このアプローチの有効性と単純さは、多くのXMLプロセッサの堅牢性向上に役立つと期待しています。
関連論文リスト
- Detecting DBMS Bugs with Context-Sensitive Instantiation and Multi-Plan Execution [11.18715154222032]
本稿では、テストケースで意味論的に正しいsqlクエリを生成する方法と、論理的バグをキャプチャする効果的なオーラクルを提案する方法を含む、この2つの課題を解決することを目的とする。
我々はKangarooと呼ばれるプロトタイプシステムを実装し、広く使われている3つのセマンティックコードを適用した。
我々のシステムと最先端システムを比較すると、生成した意味論的に有効なクエリの数、テスト中の探索されたコードパス、検出されたバグなどにおいて、システムの性能が優れていることが分かる。
論文 参考訳(メタデータ) (2023-12-08T10:15:56Z) - HDNA: A graph-based change detection in HTML pages(Deface Attack
Detection) [0.0]
HDNA(HTML DNA)は、ドキュメントオブジェクトモデル(DOM)ツリーの解析と比較のために導入された。
メソッドはその構造に基づいて各HTMLページに識別子を割り当てる。
論文 参考訳(メタデータ) (2023-10-05T20:49:54Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - A Survey on Extreme Multi-label Learning [72.8751573611815]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。
計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。
eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文 参考訳(メタデータ) (2022-10-08T08:31:34Z) - DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short
Text Documents [10.573976360424473]
本稿では,DeepXMLフレームワークを開発し,深部マルチラベルタスクを4つのシンプルなサブタスクに分解し,それらを正確かつ効率的に訓練する。
DeepXMLはAstecアルゴリズムの精度を2~12%向上し、トレーニングが5~30倍高速になる可能性がある。
またAstecは、最大6200万のラベルを含むBingの短いテキストデータセットを効率的にトレーニングし、コモディティハードウェア上で毎日数十億のユーザとデータポイントを予測できる。
論文 参考訳(メタデータ) (2021-11-12T12:25:23Z) - InceptionXML: A Lightweight Framework with Synchronized Negative Sampling for Short Text Extreme Classification [5.637543626451507]
インセプションXMLは軽量で、強力で、ショートテキストクエリにおけるワードオーダーの欠如に対して堅牢です。
InceptionXMLは、ベンチマークデータセットの既存のアプローチよりも優れているだけでなく、変換器のベースラインがわずか2%のFLOPしか必要としないことを示す。
論文 参考訳(メタデータ) (2021-09-13T18:55:37Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。