Fugu-MT 論文翻訳(概要): Finding XPath Bugs in XML Document Processors via Differential Testing

論文の概要: Finding XPath Bugs in XML Document Processors via Differential Testing

arxiv url: http://arxiv.org/abs/2401.05112v1
Date: Wed, 10 Jan 2024 12:22:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 14:41:18.799613
Title: Finding XPath Bugs in XML Document Processors via Differential Testing
Title（参考訳）: 差分テストによるXMLドキュメントプロセッサのXPathバグ発見
Authors: Shuxin Li and Manuel Rigger
Abstract要約: 多くのXMLプロセッサは独自のクエリ言語をサポートしており、XMLドキュメントから要素を抽出できる。これらのシステムは、プロセッサが誤った結果を返す原因となるバグであるロジックのバグによって影響を受ける可能性がある。我々は,XPressと呼ばれるシステムとして実現した新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 7.991734012336718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Extensible Markup Language (XML) is a widely used file format for data storage and transmission. Many XML processors support XPath, a query language that enables the extraction of elements from XML documents. These systems can be affected by logic bugs, which are bugs that cause the processor to return incorrect results. In order to tackle such bugs, we propose a new approach, which we realized as a system called XPress. As a test oracle, XPress relies on differential testing, which compares the results of multiple systems on the same test input, and identifies bugs through discrepancies in their outputs. As test inputs, XPress generates both XML documents and XPath queries. Aiming to generate meaningful queries that compute non-empty results, XPress selects a so-called targeted node to guide the XPath expression generation process. Using the targeted node, XPress generates XPath expressions that reference existing context related to the targeted node, such as its tag name and attributes, while also guaranteeing that a predicate evaluates to true before further expanding the query. We tested our approach on six mature XML processors, BaseX, eXist-DB, Saxon, PostgreSQL, libXML2, and a commercial database system. In total, we have found 20 unique bugs in these systems, of which 25 have been verified by the developers, and 12 of which have been fixed. XPress is efficient, as it finds 12 unique bugs in BaseX in 24 hours, which is 2x as fast as naive random generation. We expect that the effectiveness and simplicity of our approach will help to improve the robustness of many XML processors.
Abstract（参考訳）: Extensible Markup Language (XML)は、データストレージと送信のために広く使われているファイルフォーマットである。多くのXMLプロセッサは、XMLドキュメントから要素を抽出できるクエリ言語XPathをサポートしている。これらのシステムは、プロセッサが誤った結果を返すバグであるロジックバグに影響される可能性がある。このようなバグに対処するために,我々はxpressと呼ばれるシステムとして実現した新しいアプローチを提案する。テストオラクルとして、xpressは差分テストに依存しており、同じテスト入力で複数のシステムの結果を比較し、出力の相違によってバグを識別する。テスト入力として、XPressはXMLドキュメントとXPathクエリの両方を生成する。空でない結果を計算する意味のあるクエリを生成するために、XPressはXPath式生成プロセスをガイドするために、いわゆるターゲットノードを選択する。ターゲットノードを使用することで、xpressは、タグ名や属性など、ターゲットノードに関連する既存のコンテキストを参照するxpath式を生成すると同時に、クエリをさらに拡張する前に述語がtrueに評価されることを保証する。私たちは6つの成熟したXMLプロセッサ、BaseX、eXist-DB、サクソン、PostgreSQL、libXML2、および商用データベースシステムでアプローチをテストしました。これらのシステムには20のユニークなバグがあり、そのうち25が開発者によって検証され、12が修正されている。 xpressは効率が良く、basexに24時間以内に12のユニークなバグを発見し、これはナイーブなランダム生成の2倍の速さだ。このアプローチの有効性と単純さは、多くのXMLプロセッサの堅牢性向上に役立つと期待しています。

関連論文リスト

Semantic XPath: Structured Agentic Memory Access for Conversational AI [20.461904943047468]
コンテキスト内メモリのアプローチは、コンテキスト-ウィンドウの制限下でのスケールが不十分なモデル入力に、増大する履歴を付加する。本研究では,木構造メモリモジュールであるSemanticを提案する。また、構造化メモリとクエリ実行の詳細を可視化する、エンドツーエンドのConvAIデモシステムであるSemanticPathX Chatを紹介する。
論文参考訳（メタデータ） (2026-03-01T15:56:08Z)
AXE: Low-Cost Cross-Domain Web Structured Information Extraction [0.0]
AXEは、HTML DOMを単に読み込むためのテキストの壁ではなく、プルーニングを必要とするツリーとして扱うパイプラインである。 AXEは特別な「プルーニング」メカニズムを使用して、ボイラープレートと無関係なノードを除去する。我々は,大規模Web情報抽出のための実用的で費用対効果の高い方法を提供することを目指している。
論文参考訳（メタデータ） (2026-02-02T09:09:35Z)
Parser Knows Best: Testing DBMS with Coverage-Guided Grammar-Rule Traversal [6.300885279363564]
本稿では,組込み構文の定義ファイル forsql 生成から文法規則を自動的に抽出するファジングフレームワーク Fuzz を提案する。 Fuzzはさまざまなクエリ文を生成して、テストの文法機能を飽和させる。評価では、Fuzzは、バグ発見、文法規則のカバレッジ、コードカバレッジという観点で、最先端の既存のテストツールをすべて上回っています。
論文参考訳（メタデータ） (2025-03-05T20:50:41Z)
A Simple but Effective Closed-form Solution for Extreme Multi-label Learning [8.781687166999927]
Extreme Multi-label Learning(XML)は、非常に大きなラベルセットから複数のラベルを各データインスタンスに割り当てるタスクである。本稿ではXMLのリッジ回帰に基づく簡易な手法を提案する。我々は、情報コンテンツを保持するXMLにおける低周波ラベルの予測を強化した。
論文参考訳（メタデータ） (2025-01-17T13:24:13Z)
XPath Agent: An Efficient XPath Programming Agent Based on LLM for Web Crawler [11.53729666216798]
Agentは、WebクローリングとWebテスト用に特別に設計された、プロダクション対応のプログラミングエージェントである。 Agentの重要な機能は、単一の自然言語クエリを使用して、サンプルされたWebページのセットからクエリを自動的に生成する機能である。
論文参考訳（メタデータ） (2024-12-17T11:36:16Z)
Detecting DBMS Bugs with Context-Sensitive Instantiation and Multi-Plan Execution [11.18715154222032]
本稿では、テストケースで意味論的に正しいsqlクエリを生成する方法と、論理的バグをキャプチャする効果的なオーラクルを提案する方法を含む、この2つの課題を解決することを目的とする。我々はKangarooと呼ばれるプロトタイプシステムを実装し、広く使われている3つのセマンティックコードを適用した。我々のシステムと最先端システムを比較すると、生成した意味論的に有効なクエリの数、テスト中の探索されたコードパス、検出されたバグなどにおいて、システムの性能が優れていることが分かる。
論文参考訳（メタデータ） (2023-12-08T10:15:56Z)
HDNA: A graph-based change detection in HTML pages(Deface Attack Detection) [0.0]
HDNA(HTML DNA)は、ドキュメントオブジェクトモデル(DOM)ツリーの解析と比較のために導入された。メソッドはその構造に基づいて各HTMLページに識別子を割り当てる。
論文参考訳（メタデータ） (2023-10-05T20:49:54Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Semantic Parsing for Conversational Question Answering over Knowledge Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。本稿では,2つの意味解析手法を提案し,その課題を強調した。私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文参考訳（メタデータ） (2023-01-28T14:45:11Z)
XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文参考訳（メタデータ） (2022-10-25T01:33:49Z)
A Survey on Extreme Multi-label Learning [72.8751573611815]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。 eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文参考訳（メタデータ） (2022-10-08T08:31:34Z)
DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short Text Documents [10.573976360424473]
本稿では,DeepXMLフレームワークを開発し,深部マルチラベルタスクを4つのシンプルなサブタスクに分解し,それらを正確かつ効率的に訓練する。 DeepXMLはAstecアルゴリズムの精度を2～12%向上し、トレーニングが5～30倍高速になる可能性がある。またAstecは、最大6200万のラベルを含むBingの短いテキストデータセットを効率的にトレーニングし、コモディティハードウェア上で毎日数十億のユーザとデータポイントを予測できる。
論文参考訳（メタデータ） (2021-11-12T12:25:23Z)
InceptionXML: A Lightweight Framework with Synchronized Negative Sampling for Short Text Extreme Classification [5.637543626451507]
インセプションXMLは軽量で、強力で、ショートテキストクエリにおけるワードオーダーの欠如に対して堅牢です。 InceptionXMLは、ベンチマークデータセットの既存のアプローチよりも優れているだけでなく、変換器のベースラインがわずか2%のFLOPしか必要としないことを示す。
論文参考訳（メタデータ） (2021-09-13T18:55:37Z)
A High-Quality Multilingual Dataset for Structured Documentation Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文参考訳（メタデータ） (2020-06-24T02:08:44Z)
XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。 XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文参考訳（メタデータ） (2020-04-03T07:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。