Fugu-MT 論文翻訳(概要): Mobile App Crowdsourced Test Report Consistency Detection via Deep Image-and-Text Fusion Understanding

論文の概要: Mobile App Crowdsourced Test Report Consistency Detection via Deep Image-and-Text Fusion Understanding

arxiv url: http://arxiv.org/abs/2108.07401v3
Date: Mon, 12 Jun 2023 08:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 15:47:24.526220
Title: Mobile App Crowdsourced Test Report Consistency Detection via Deep Image-and-Text Fusion Understanding
Title（参考訳）: 深層画像・テキスト融合理解によるモバイルアプリクラウドソーシングテストレポートの一貫性検出
Authors: Shengcheng Yu, Chunrong Fang, Quanjun Zhang, Zhihao Cao, Yexiao Yun, Zhenfei Cao, Kai Mei, Zhenyu Chen
Abstract要約: 画像とテキストの融合理解によるクラウドソーシングテストレポートの一貫性を検出するためにReCoDeを提案する。我々は、ReCoDeを評価するために、22k以上のテストレポートを持つデータセットで実験を行う。
参考スコア（独自算出の注目度）: 13.180855645914928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Crowdsourced testing, as a distinct testing paradigm, has attracted much attention in software testing, especially in mobile application (app) testing field. Compared with in-house testing, crowdsourced testing shows superiority with the diverse testing environments when faced with the mobile testing fragmentation problem. However, crowdsourced testing also encounters the low-quality test report problem caused by unprofessional crowdworkers involved with different expertise. In order to handle the submitted reports of uneven quality, app developers have to distinguish high-quality reports from low-quality ones to help the bug inspection. One kind of typical low-quality test report is inconsistent test reports, which means the textual descriptions are not focusing on the attached bug-occurring screenshots. According to our empirical survey, only 18.07% crowdsourced test reports are consistent. Inconsistent reports cause waste on mobile app testing. To solve the inconsistency problem, we propose ReCoDe to detect the consistency of crowdsourced test reports via deep image-and-text fusion understanding. ReCoDe is a two-stage approach that first classifies the reports based on textual descriptions into different categories according to the bug feature. In the second stage, ReCoDe has a deep understanding of the GUI image features of the app screenshots and then applies different strategies to handle different types of bugs to detect the consistency of the crowdsourced test reports. We conduct an experiment on a dataset with over 22k test reports to evaluate ReCoDe, and the results show the effectiveness of ReCoDe in detecting the consistency of crowdsourced test reports. Besides, a user study is conducted to prove the practical value of ReCoDe in effectively helping app developers improve the efficiency of reviewing the crowdsourced test reports.
Abstract（参考訳）: クラウドソーシングテストは、異なるテストパラダイムとして、特にモバイルアプリケーション(アプリケーション)テスト分野において、ソフトウェアテストに大きな注目を集めている。社内テストと比較すると,クラウドソーステストは,モバイルテストの断片化問題に直面するさまざまなテスト環境よりも優れている。しかし、クラウドソーステストは、異なる専門知識に関わる非専門的なクラウドワーカーによる低品質なテストレポート問題にも遭遇する。不均一な品質に関する報告を処理するために、アプリ開発者は高品質のレポートと低品質のレポートを区別し、バグ検査を支援する必要がある。典型的な低品質テストレポートの1つは、一貫性のないテストレポートである。実証調査によると、クラウドソーステストレポートは18.07%に過ぎなかった。一貫性のないレポートは、モバイルアプリのテストに無駄を引き起こす。不整合性問題を解決するために,画像とテキストの融合理解によるクラウドソーシングテストレポートの一貫性を検出するReCoDeを提案する。 ReCoDeは、まずレポートをテキスト記述に基づいて、バグ機能に従って異なるカテゴリに分類する2段階のアプローチである。第2段階では、recodeはアプリのスクリーンショットのguiイメージ機能を深く理解し、クラウドソースされたテストレポートの一貫性を検出するために、さまざまな種類のバグに対処するための戦略を適用する。本研究では,22k以上のテストレポートを用いたデータセット上でReCoDeの評価を行い,クラウドソーステストレポートの一貫性の検出におけるReCoDeの有効性を示した。さらに,ReCoDeの実践的価値を証明するためにユーザスタディを実施し,クラウドソーステストレポートのレビュー効率の向上を効果的に支援した。

関連論文リスト

Intention-Driven Generation of Project-Specific Test Cases [14.297390481640068]
本稿では,プロジェクト固有のテストを生成するIntentionTestを構造化記述として提案する。 13のオープンソースプロジェクトから4,146件のテストケースで,最先端のベースラインに対するIntentionTestを評価した。
論文参考訳（メタデータ） (2025-07-28T08:35:04Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
ImageR: Enhancing Bug Report Clarity by Screenshots [2.0749231618270803]
私たちは、スクリーンショットを含む潜在的なメリットを評価するために、イシューレポートを分析するAIモデルとツールであるImageRを紹介します。 ImageRは、関連したビジュアルを積極的に提案することで、イシューレポートをより明確で、より情報的で、時間効率の高いものにすることを目指している。我々は、6,235のBugzillaイシューからなるデータセットをキュレートし、公開し、それぞれに画像アタッチメントの種類を慎重にラベル付けした。
論文参考訳（メタデータ） (2025-05-03T21:31:40Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
ViUniT: Visual Unit Tests for More Robust Visual Programming [104.55763189099125]
モデルが正しく答えると、不正なプログラムを33%生成します。自動単体テストを生成することで、視覚プログラムの信頼性を向上させるためのフレームワークであるVisual Unit Testing (ViUniT)を提案する。
論文参考訳（メタデータ） (2024-12-12T01:36:18Z)
Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文参考訳（メタデータ） (2024-09-16T07:52:09Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)
A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports [0.0]
既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルについて検討した。本研究は, 類似のバグレポートを検索するための埋め込み手法の有効性について考察し, 適切なバグレポートを選択することの影響を明らかにする。
論文参考訳（メタデータ） (2023-08-17T21:36:56Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文参考訳（メタデータ） (2022-12-20T08:04:36Z)
Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。本論文では,NLP手法の組み合わせによる解を提案する。カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文参考訳（メタデータ） (2022-12-13T02:32:42Z)
TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文参考訳（メタデータ） (2021-05-21T03:41:10Z)
Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文参考訳（メタデータ） (2021-04-12T06:57:36Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。