論文の概要: Crossover Designs in Software Engineering Experiments: Review of the State of Analysis
- arxiv url: http://arxiv.org/abs/2408.07594v1
- Date: Wed, 14 Aug 2024 14:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:53:17.521098
- Title: Crossover Designs in Software Engineering Experiments: Review of the State of Analysis
- Title(参考訳): ソフトウェアエンジニアリング実験におけるクロスオーバー設計:分析の現状のレビュー
- Authors: Julian Frattini, Davide Fucci, Sira Vegas,
- Abstract要約: Vegasらは、ソフトウェア工学(SE)研究におけるクロスオーバー設計の実践状況についてレビューした。
本稿では,2015年から2024年にかけてのSE出版物におけるクロスオーバー設計実験の現状について概説する。
明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。
- 参考スコア(独自算出の注目度): 4.076290837395956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experimentation is an essential method for causal inference in any empirical discipline. Crossover-design experiments are common in Software Engineering (SE) research. In these, subjects apply more than one treatment in different orders. This design increases the amount of obtained data and deals with subject variability but introduces threats to internal validity like the learning and carryover effect. Vegas et al. reviewed the state of practice for crossover designs in SE research and provided guidelines on how to address its threats during data analysis while still harnessing its benefits. In this paper, we reflect on the impact of these guidelines and review the state of analysis of crossover design experiments in SE publications between 2015 and March 2024. To this end, by conducting a forward snowballing of the guidelines, we survey 136 publications reporting 67 crossover-design experiments and evaluate their data analysis against the provided guidelines. The results show that the validity of data analyses has improved compared to the original state of analysis. Still, despite the explicit guidelines, only 29.5% of all threats to validity were addressed properly. While the maturation and the optimal sequence threats are properly addressed in 35.8% and 38.8% of all studies in our sample respectively, the carryover threat is only modeled in about 3% of the observed cases. The lack of adherence to the analysis guidelines threatens the validity of the conclusions drawn from crossover design experiments
- Abstract(参考訳): 実験は、あらゆる経験的分野において因果推論に不可欠な方法である。
クロスオーバー設計の実験は、ソフトウェア工学(SE)研究で一般的である。
これらにおいて、被験者は異なる順序で複数の治療を施す。
この設計は、得られたデータ量を増やし、対象変数を扱うが、学習や輸送効果のような内部的妥当性に脅威をもたらす。
Vegasらは、SE研究におけるクロスオーバー設計の実践状況についてレビューし、そのメリットを活用しながら、データ分析中に脅威に対処するためのガイドラインを提供した。
本稿では,これらのガイドラインが与える影響を考察し,2015年から2024年3月までのSE出版物におけるクロスオーバー設計実験の分析状況について概観する。
この目的のために,本ガイドラインの事前雪解けを行い,67件のクロスオーバー設計実験を報告した136件の出版物を調査し,提案ガイドラインに対してデータ解析を行った。
その結果,データ解析の妥当性は,従来の解析結果と比較すると向上していることがわかった。
それでも、明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。
成熟度と最適配列の脅威はそれぞれ試料中の全研究の35.8%と38.8%で適切に対処されているが、輸送脅威は観察されたケースの約3%でのみモデル化されている。
分析ガイドラインの遵守の欠如は、クロスオーバー設計実験から得られた結論の妥当性を脅かす
関連論文リスト
- Mitigating Omitted Variable Bias in Empirical Software Engineering [4.389150156866014]
省略変数バイアスは、統計モデルが研究中の影響の関連する決定要因である変数を除外した場合に発生する。
オメットされた可変バイアスは、実証研究の妥当性に重大な脅威をもたらす。
本稿では,ソフトウェア工学における経験的研究を設計・実行するための一連の解析手順を示す。
論文 参考訳(メタデータ) (2025-01-28T15:43:46Z) - A Call for Critically Rethinking and Reforming Data Analysis in Empirical Software Engineering [5.687882380471718]
経験的方法論の正しい適用に関する懸念は、2006年のDagtuhl Seminar on Empirical Software Engineeringから存在する。
LLMを用いて,27,000件の実証研究の文献調査を行い,統計的方法論を適切あるいは不十分と分類した。
我々は,30の初等研究を選定し,統計問題を特定し,解決する能力を評価するために,33人のESE専門家とワークショップを開催した。
論文 参考訳(メタデータ) (2025-01-22T09:05:01Z) - Good practices for evaluation of machine learning systems [28.2601701453212]
評価プロトコルの設計に関わる主な側面として,データ選択,メートル法選択,統計的意義について論じる。
本稿では, 音声処理分野から抽出した例と, それぞれの側面に共通する誤りの一覧を示す。
論文 参考訳(メタデータ) (2024-12-04T20:30:16Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - How Dataflow Diagrams Impact Software Security Analysis: an Empirical
Experiment [5.6169596483204085]
本研究では,DFDがセキュリティ分析環境におけるアナリストのパフォーマンスに与える影響を調査するための実証実験を行った結果について述べる。
その結果, モデル支援条件下では, 分析課題の正解率は有意に向上した。
実験で得られた知見に基づいて,DFDをセキュリティ分析に使用する上でのオープンな3つの課題を特定した。
論文 参考訳(メタデータ) (2024-01-09T09:22:35Z) - Ovarian Cancer Data Analysis using Deep Learning: A Systematic Review
from the Perspectives of Key Features of Data Analysis and AI Assurance [0.0]
機械学習(ML/DL)ベースの自律データ分析ツールは、臨床医やがん研究者が複雑なデータセットからパターンや関係を発見するのを助ける。
卵巣癌(OC)データに関する多くのDLベース分析が最近公表されている。
しかし、これらの特徴とAI保証(AIA)の観点から、これらの分析の包括的な理解は、現在不足している。
論文 参考訳(メタデータ) (2023-11-20T17:17:29Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。