論文の概要: Mobile App Crowdsourced Test Report Consistency Detection via Deep
Image-and-Text Fusion Understanding
- arxiv url: http://arxiv.org/abs/2108.07401v3
- Date: Mon, 12 Jun 2023 08:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 15:47:24.526220
- Title: Mobile App Crowdsourced Test Report Consistency Detection via Deep
Image-and-Text Fusion Understanding
- Title(参考訳): 深層画像・テキスト融合理解によるモバイルアプリクラウドソーシングテストレポートの一貫性検出
- Authors: Shengcheng Yu, Chunrong Fang, Quanjun Zhang, Zhihao Cao, Yexiao Yun,
Zhenfei Cao, Kai Mei, Zhenyu Chen
- Abstract要約: 画像とテキストの融合理解によるクラウドソーシングテストレポートの一貫性を検出するためにReCoDeを提案する。
我々は、ReCoDeを評価するために、22k以上のテストレポートを持つデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 13.180855645914928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowdsourced testing, as a distinct testing paradigm, has attracted much
attention in software testing, especially in mobile application (app) testing
field. Compared with in-house testing, crowdsourced testing shows superiority
with the diverse testing environments when faced with the mobile testing
fragmentation problem. However, crowdsourced testing also encounters the
low-quality test report problem caused by unprofessional crowdworkers involved
with different expertise. In order to handle the submitted reports of uneven
quality, app developers have to distinguish high-quality reports from
low-quality ones to help the bug inspection. One kind of typical low-quality
test report is inconsistent test reports, which means the textual descriptions
are not focusing on the attached bug-occurring screenshots. According to our
empirical survey, only 18.07% crowdsourced test reports are consistent.
Inconsistent reports cause waste on mobile app testing.
To solve the inconsistency problem, we propose ReCoDe to detect the
consistency of crowdsourced test reports via deep image-and-text fusion
understanding. ReCoDe is a two-stage approach that first classifies the reports
based on textual descriptions into different categories according to the bug
feature. In the second stage, ReCoDe has a deep understanding of the GUI image
features of the app screenshots and then applies different strategies to handle
different types of bugs to detect the consistency of the crowdsourced test
reports. We conduct an experiment on a dataset with over 22k test reports to
evaluate ReCoDe, and the results show the effectiveness of ReCoDe in detecting
the consistency of crowdsourced test reports. Besides, a user study is
conducted to prove the practical value of ReCoDe in effectively helping app
developers improve the efficiency of reviewing the crowdsourced test reports.
- Abstract(参考訳): クラウドソーシングテストは、異なるテストパラダイムとして、特にモバイルアプリケーション(アプリケーション)テスト分野において、ソフトウェアテストに大きな注目を集めている。
社内テストと比較すると,クラウドソーステストは,モバイルテストの断片化問題に直面するさまざまなテスト環境よりも優れている。
しかし、クラウドソーステストは、異なる専門知識に関わる非専門的なクラウドワーカーによる低品質なテストレポート問題にも遭遇する。
不均一な品質に関する報告を処理するために、アプリ開発者は高品質のレポートと低品質のレポートを区別し、バグ検査を支援する必要がある。
典型的な低品質テストレポートの1つは、一貫性のないテストレポートである。
実証調査によると、クラウドソーステストレポートは18.07%に過ぎなかった。
一貫性のないレポートは、モバイルアプリのテストに無駄を引き起こす。
不整合性問題を解決するために,画像とテキストの融合理解によるクラウドソーシングテストレポートの一貫性を検出するReCoDeを提案する。
ReCoDeは、まずレポートをテキスト記述に基づいて、バグ機能に従って異なるカテゴリに分類する2段階のアプローチである。
第2段階では、recodeはアプリのスクリーンショットのguiイメージ機能を深く理解し、クラウドソースされたテストレポートの一貫性を検出するために、さまざまな種類のバグに対処するための戦略を適用する。
本研究では,22k以上のテストレポートを用いたデータセット上でReCoDeの評価を行い,クラウドソーステストレポートの一貫性の検出におけるReCoDeの有効性を示した。
さらに,ReCoDeの実践的価値を証明するためにユーザスタディを実施し,クラウドソーステストレポートのレビュー効率の向上を効果的に支援した。
関連論文リスト
- Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z) - A Comparative Study of Text Embedding Models for Semantic Text
Similarity in Bug Reports [0.0]
既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。
我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルについて検討した。
本研究は, 類似のバグレポートを検索するための埋め込み手法の有効性について考察し, 適切なバグレポートを選択することの影響を明らかにする。
論文 参考訳(メタデータ) (2023-08-17T21:36:56Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。