論文の概要: Crossover Designs in Software Engineering Experiments: Review of the State of Analysis
- arxiv url: http://arxiv.org/abs/2408.07594v1
- Date: Wed, 14 Aug 2024 14:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:53:17.521098
- Title: Crossover Designs in Software Engineering Experiments: Review of the State of Analysis
- Title(参考訳): ソフトウェアエンジニアリング実験におけるクロスオーバー設計:分析の現状のレビュー
- Authors: Julian Frattini, Davide Fucci, Sira Vegas,
- Abstract要約: Vegasらは、ソフトウェア工学(SE)研究におけるクロスオーバー設計の実践状況についてレビューした。
本稿では,2015年から2024年にかけてのSE出版物におけるクロスオーバー設計実験の現状について概説する。
明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。
- 参考スコア(独自算出の注目度): 4.076290837395956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experimentation is an essential method for causal inference in any empirical discipline. Crossover-design experiments are common in Software Engineering (SE) research. In these, subjects apply more than one treatment in different orders. This design increases the amount of obtained data and deals with subject variability but introduces threats to internal validity like the learning and carryover effect. Vegas et al. reviewed the state of practice for crossover designs in SE research and provided guidelines on how to address its threats during data analysis while still harnessing its benefits. In this paper, we reflect on the impact of these guidelines and review the state of analysis of crossover design experiments in SE publications between 2015 and March 2024. To this end, by conducting a forward snowballing of the guidelines, we survey 136 publications reporting 67 crossover-design experiments and evaluate their data analysis against the provided guidelines. The results show that the validity of data analyses has improved compared to the original state of analysis. Still, despite the explicit guidelines, only 29.5% of all threats to validity were addressed properly. While the maturation and the optimal sequence threats are properly addressed in 35.8% and 38.8% of all studies in our sample respectively, the carryover threat is only modeled in about 3% of the observed cases. The lack of adherence to the analysis guidelines threatens the validity of the conclusions drawn from crossover design experiments
- Abstract(参考訳): 実験は、あらゆる経験的分野において因果推論に不可欠な方法である。
クロスオーバー設計の実験は、ソフトウェア工学(SE)研究で一般的である。
これらにおいて、被験者は異なる順序で複数の治療を施す。
この設計は、得られたデータ量を増やし、対象変数を扱うが、学習や輸送効果のような内部的妥当性に脅威をもたらす。
Vegasらは、SE研究におけるクロスオーバー設計の実践状況についてレビューし、そのメリットを活用しながら、データ分析中に脅威に対処するためのガイドラインを提供した。
本稿では,これらのガイドラインが与える影響を考察し,2015年から2024年3月までのSE出版物におけるクロスオーバー設計実験の分析状況について概観する。
この目的のために,本ガイドラインの事前雪解けを行い,67件のクロスオーバー設計実験を報告した136件の出版物を調査し,提案ガイドラインに対してデータ解析を行った。
その結果,データ解析の妥当性は,従来の解析結果と比較すると向上していることがわかった。
それでも、明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。
成熟度と最適配列の脅威はそれぞれ試料中の全研究の35.8%と38.8%で適切に対処されているが、輸送脅威は観察されたケースの約3%でのみモデル化されている。
分析ガイドラインの遵守の欠如は、クロスオーバー設計実験から得られた結論の妥当性を脅かす
関連論文リスト
- A Second Look at the Impact of Passive Voice Requirements on Domain
Modeling: Bayesian Reanalysis of an Experiment [4.649794383775257]
我々は、受動音声がその後のドメイン・モデリング活動に与える影響について、唯一知られている制御実験を再分析する。
その結果, 原作者の観察した影響は, 以前考えられていたよりも遥かに少ないことがわかった。
論文 参考訳(メタデータ) (2024-02-16T16:24:00Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - How Dataflow Diagrams Impact Software Security Analysis: an Empirical
Experiment [5.6169596483204085]
本研究では,DFDがセキュリティ分析環境におけるアナリストのパフォーマンスに与える影響を調査するための実証実験を行った結果について述べる。
その結果, モデル支援条件下では, 分析課題の正解率は有意に向上した。
実験で得られた知見に基づいて,DFDをセキュリティ分析に使用する上でのオープンな3つの課題を特定した。
論文 参考訳(メタデータ) (2024-01-09T09:22:35Z) - Ovarian Cancer Data Analysis using Deep Learning: A Systematic Review
from the Perspectives of Key Features of Data Analysis and AI Assurance [0.0]
機械学習(ML/DL)ベースの自律データ分析ツールは、臨床医やがん研究者が複雑なデータセットからパターンや関係を発見するのを助ける。
卵巣癌(OC)データに関する多くのDLベース分析が最近公表されている。
しかし、これらの特徴とAI保証(AIA)の観点から、これらの分析の包括的な理解は、現在不足している。
論文 参考訳(メタデータ) (2023-11-20T17:17:29Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Pitfalls in Experiments with DNN4SE: An Analysis of the State of the
Practice [0.7614628596146599]
我々は、ソフトウェアエンジニアリングのプレミア会場で発行された55の論文に現れるディープニューラルネットワークに依存する技術を用いて、194の実験を行い、マッピング研究を実施します。
以上の結果から,ACMアーティファクトバッジを受信した者を含む実験の大部分が,その信頼性に疑問を呈する根本的な限界があることが判明した。
論文 参考訳(メタデータ) (2023-05-19T09:55:48Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - TraSE: Towards Tackling Authorial Style from a Cognitive Science
Perspective [4.123763595394021]
クロスドメインシナリオにおける27,000人以上の著者と1.4万のサンプルによるオーサリング属性実験の結果、90%のアトリビューション精度が得られた。
年齢などの身体的特徴を用いて、TraSE上で定性的な分析を行い、認知的特徴を捉えているという主張を検証する。
論文 参考訳(メタデータ) (2022-06-21T19:55:07Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。