論文の概要: From Natural Language to Executable Properties for Property-based Testing of Mobile Apps
- arxiv url: http://arxiv.org/abs/2603.21263v1
- Date: Sun, 22 Mar 2026 14:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.315428
- Title: From Natural Language to Executable Properties for Property-based Testing of Mobile Apps
- Title(参考訳): 自然言語から実行可能プロパティへ -モバイルアプリのプロパティベーステスト-
- Authors: Yiheng Xiong, Ting Su, Jingling Sun, Jue Wang, Qin Li, Geguang Pu, Zhendong Su,
- Abstract要約: 本稿では,自然言語のプロパティ記述を自動的に実行可能なプロパティに変換する,新しい構造化プロパティ合成手法を提案する。
提案手法はUIセマンティックグラウンドと実行可能プロパティ合成に分解する。
iPBTは実行可能プロパティの書き込みに要する時間を56%削減できることを示す。
- 参考スコア(独自算出の注目度): 15.233172989165274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Property-based testing (PBT) is a popular software testing methodology and is effective in validating the functionality of mobile applications (apps for short). However, its adoption in practice remains limited, largely due to the manual effort and technical expertise required to specify executable properties. In this experience paper, we propose a novel structured property synthesis approach that automatically translates property descriptions in natural language into executable properties, and implement it in a tool named iPBT. Our approach decomposes the problem into UI semantic grounding and executable property synthesis. It first builds an enriched widget context via multimodal LLMs to align visual elements with their functional semantics, and then uses an LLM with in-context learning to generate framework-specific executable properties. We evaluate iPBT with a closed-source LLM (GPT-4o) and an open-source LLM (DeepSeek-V3) on 124 diverse property descriptions derived from an existing benchmark dataset. iPBT achieves 95.2% (118/124) accuracy on both LLMs. Notably, an ablation study reveals that the enriched widget context contributes to an absolute improvement of up to 20.2% (from 75.0% to 95.2%). A user study with 10 participants demonstrates that iPBT reduces the time required to write executable properties by 56%, suggesting substantially lower manual effort. Furthermore, evaluations on 1,180 linguistically diverse variations demonstrate iPBT's robustness (87.6% accuracy), indicating its capability to handle varied expressions.
- Abstract(参考訳): プロパティベースのテスト(PBT)は一般的なソフトウェアテスト手法であり、モバイルアプリケーションの機能を検証するのに効果的である(略してアプリケーション)。
しかし、実行可能プロパティを特定するのに必要な手作業と技術的専門知識のために、実際に採用されることは依然として限られている。
本稿では、自然言語のプロパティ記述を実行可能なプロパティに自動的に変換し、iPBTというツールで実装する、新しい構造化プロパティ合成手法を提案する。
提案手法はUIセマンティックグラウンドと実行可能プロパティ合成に分解する。
まず、マルチモーダル LLM を使用してリッチなウィジェットコンテキストを構築し、視覚要素を機能的意味論と整合させ、次に、コンテキスト内学習による LLM を使用してフレームワーク固有の実行可能なプロパティを生成する。
既存のベンチマークデータセットから得られた124種類のプロパティ記述に対して,iPBT をクローズドソース LLM (GPT-4o) とオープンソース LLM (DeepSeek-V3) で評価した。
iPBTは95.2% (118/124) の精度を実現している。
特にアブレーション研究では、リッチなウィジェットコンテキストが最大20.2%(75.0%から95.2%)の絶対的な改善に寄与していることが示されている。
10人の参加者によるユーザスタディでは、iPBTは実行可能なプロパティを書くのに必要な時間を56%削減し、手作業の労力を大幅に削減することを示した。
さらに、言語学的に多様である1180の評価は、iPBTの堅牢性(87.6%の精度)を示し、様々な表現を扱う能力を示している。
関連論文リスト
- Explainable Semantic Textual Similarity via Dissimilar Span Detection [53.32175252285023]
テキストのペア間で意味的に異なるスパンを識別することを目的として,DSD(Dissimilar Span Detection)タスクを導入する。
これにより、ユーザーはどの特定の単語やトークンが類似度スコアに悪影響を及ぼすかを理解したり、STS依存のダウンストリームタスクのパフォーマンス向上に使用することができる。
論文 参考訳(メタデータ) (2026-03-22T11:32:31Z) - Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation [3.9189409002585567]
大規模言語モデル(LLM)は関数レベルのコード生成ベンチマークで強い性能を示している。
本稿では,実環境下での一般化を評価するために,実世界のオープンソースリポジトリから得られたベンチマークを紹介する。
入力仕様の完全性と検索拡張生成が複数の最先端LCMのクラスレベルの正しさにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-30T04:30:23Z) - Active Authentication via Korean Keystrokes Under Varying LLM Assistance and Cognitive Contexts [3.091662349810693]
韓国語におけるキーストロークに基づく認証は、3つの現実的なタイピングシナリオで評価する。
本システムは,LLMの使用状況や認知的文脈にまたがって,信頼性の高い性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-09-29T13:57:16Z) - PropertyGPT: LLM-driven Formal Verification of Smart Contracts through Retrieval-Augmented Property Generation [11.350635014083812]
PropertyGPTは包括的で高品質なプロパティを生成し、基礎的な真実と比べて80%のリコールを達成することができる。
PropertyGPTはテスト対象37件中26件のCVE/アタックインシデントを検出し、12件のゼロデイ脆弱性を発見した。
論文 参考訳(メタデータ) (2024-05-04T06:28:27Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Can Large Language Models Write Good Property-Based Tests? [5.671039991090038]
プロパティベースのテスト(PBT)は、現実世界のソフトウェアではいまだにあまり使われていない。
2つのプロンプト手法を用いて,近代言語モデルを用いてPSTを自動的に合成する。
最適なモデルとプロンプトアプローチにより,有効かつ健全なPBTを平均2.4サンプルで合成できることが判明した。
論文 参考訳(メタデータ) (2023-07-10T05:09:33Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。