Fugu-MT 論文翻訳(概要): Crossover Designs in Software Engineering Experiments: Review of the State of Analysis

論文の概要: Crossover Designs in Software Engineering Experiments: Review of the State of Analysis

arxiv url: http://arxiv.org/abs/2408.07594v1
Date: Wed, 14 Aug 2024 14:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 12:53:17.521098
Title: Crossover Designs in Software Engineering Experiments: Review of the State of Analysis
Title（参考訳）: ソフトウェアエンジニアリング実験におけるクロスオーバー設計:分析の現状のレビュー
Authors: Julian Frattini, Davide Fucci, Sira Vegas,
Abstract要約: Vegasらは、ソフトウェア工学(SE)研究におけるクロスオーバー設計の実践状況についてレビューした。本稿では,2015年から2024年にかけてのSE出版物におけるクロスオーバー設計実験の現状について概説する。明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。
参考スコア（独自算出の注目度）: 4.076290837395956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Experimentation is an essential method for causal inference in any empirical discipline. Crossover-design experiments are common in Software Engineering (SE) research. In these, subjects apply more than one treatment in different orders. This design increases the amount of obtained data and deals with subject variability but introduces threats to internal validity like the learning and carryover effect. Vegas et al. reviewed the state of practice for crossover designs in SE research and provided guidelines on how to address its threats during data analysis while still harnessing its benefits. In this paper, we reflect on the impact of these guidelines and review the state of analysis of crossover design experiments in SE publications between 2015 and March 2024. To this end, by conducting a forward snowballing of the guidelines, we survey 136 publications reporting 67 crossover-design experiments and evaluate their data analysis against the provided guidelines. The results show that the validity of data analyses has improved compared to the original state of analysis. Still, despite the explicit guidelines, only 29.5% of all threats to validity were addressed properly. While the maturation and the optimal sequence threats are properly addressed in 35.8% and 38.8% of all studies in our sample respectively, the carryover threat is only modeled in about 3% of the observed cases. The lack of adherence to the analysis guidelines threatens the validity of the conclusions drawn from crossover design experiments
Abstract（参考訳）: 実験は、あらゆる経験的分野において因果推論に不可欠な方法である。クロスオーバー設計の実験は、ソフトウェア工学(SE)研究で一般的である。これらにおいて、被験者は異なる順序で複数の治療を施す。この設計は、得られたデータ量を増やし、対象変数を扱うが、学習や輸送効果のような内部的妥当性に脅威をもたらす。 Vegasらは、SE研究におけるクロスオーバー設計の実践状況についてレビューし、そのメリットを活用しながら、データ分析中に脅威に対処するためのガイドラインを提供した。本稿では,これらのガイドラインが与える影響を考察し,2015年から2024年3月までのSE出版物におけるクロスオーバー設計実験の分析状況について概観する。この目的のために,本ガイドラインの事前雪解けを行い,67件のクロスオーバー設計実験を報告した136件の出版物を調査し,提案ガイドラインに対してデータ解析を行った。その結果,データ解析の妥当性は,従来の解析結果と比較すると向上していることがわかった。それでも、明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。成熟度と最適配列の脅威はそれぞれ試料中の全研究の35.8%と38.8%で適切に対処されているが、輸送脅威は観察されたケースの約3%でのみモデル化されている。分析ガイドラインの遵守の欠如は、クロスオーバー設計実験から得られた結論の妥当性を脅かす

関連論文リスト

An Audit of Machine Learning Experiments on Software Defect Prediction [1.2743036577573925]
機械学習アルゴリズムは、欠陥のあるソフトウェアコンポーネントを予測するために広く使われている。本稿では,最近のソフトウェア欠陥予測(SDP)研究を,その設計,解析,報告の実践から評価する。
論文参考訳（メタデータ） (2026-01-26T13:31:32Z)
Exploring the Garden of Forking Paths in Empirical Software Engineering Research: A Multiverse Analysis [3.6324565773746147]
本論文は,いわゆる多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元 9つの重要な分析的決定を、少なくとも1つの等しく防御可能な代替手段で特定する。圧倒的多数は質的に異なる結果をもたらし、時には反対の結果ももたらした。
論文参考訳（メタデータ） (2025-12-09T18:47:00Z)
Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。因果効果は肯定的か否定的か? 本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文参考訳（メタデータ） (2025-05-30T07:13:01Z)
(Mis)Fitting: A Survey of Scaling Laws [52.598843243928584]
本稿では,パラメータ比に対する最適トークンのような質問に対して,いくつかの先行研究が到達した結論の相違について論じる。スケーリングのトレンドを研究する50以上の論文を調査します。本稿では,法律研究のスケールアップに寄与しながら,著者が考慮すべきチェックリストを提案する。
論文参考訳（メタデータ） (2025-02-26T09:27:54Z)
Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてるまず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
Mitigating Omitted Variable Bias in Empirical Software Engineering [4.389150156866014]
省略変数バイアスは、統計モデルが研究中の影響の関連する決定要因である変数を除外した場合に発生する。オメットされた可変バイアスは、実証研究の妥当性に重大な脅威をもたらす。本稿では,ソフトウェア工学における経験的研究を設計・実行するための一連の解析手順を示す。
論文参考訳（メタデータ） (2025-01-28T15:43:46Z)
A Call for Critically Rethinking and Reforming Data Analysis in Empirical Software Engineering [5.687882380471718]
経験的方法論の正しい適用に関する懸念は、2006年のDagtuhl Seminar on Empirical Software Engineeringから存在する。 LLMを用いて,27,000件の実証研究の文献調査を行い,統計的方法論を適切あるいは不十分と分類した。我々は,30の初等研究を選定し,統計問題を特定し,解決する能力を評価するために,33人のESE専門家とワークショップを開催した。
論文参考訳（メタデータ） (2025-01-22T09:05:01Z)
Good practices for evaluation of machine learning systems [28.2601701453212]
評価プロトコルの設計に関わる主な側面として,データ選択,メートル法選択,統計的意義について論じる。本稿では, 音声処理分野から抽出した例と, それぞれの側面に共通する誤りの一覧を示す。
論文参考訳（メタデータ） (2024-12-04T20:30:16Z)
A Second Look at the Impact of Passive Voice Requirements on Domain Modeling: Bayesian Reanalysis of an Experiment [4.649794383775257]
我々は、受動音声がその後のドメイン・モデリング活動に与える影響について、唯一知られている制御実験を再分析する。その結果, 原作者の観察した影響は, 以前考えられていたよりも遥かに少ないことがわかった。
論文参考訳（メタデータ） (2024-02-16T16:24:00Z)
Dive into the Chasm: Probing the Gap between In- and Cross-Topic Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文参考訳（メタデータ） (2024-02-02T12:59:27Z)
How Dataflow Diagrams Impact Software Security Analysis: an Empirical Experiment [5.6169596483204085]
本研究では,DFDがセキュリティ分析環境におけるアナリストのパフォーマンスに与える影響を調査するための実証実験を行った結果について述べる。その結果, モデル支援条件下では, 分析課題の正解率は有意に向上した。実験で得られた知見に基づいて,DFDをセキュリティ分析に使用する上でのオープンな3つの課題を特定した。
論文参考訳（メタデータ） (2024-01-09T09:22:35Z)
Ovarian Cancer Data Analysis using Deep Learning: A Systematic Review from the Perspectives of Key Features of Data Analysis and AI Assurance [0.0]
機械学習(ML/DL)ベースの自律データ分析ツールは、臨床医やがん研究者が複雑なデータセットからパターンや関係を発見するのを助ける。卵巣癌(OC)データに関する多くのDLベース分析が最近公表されている。しかし、これらの特徴とAI保証(AIA)の観点から、これらの分析の包括的な理解は、現在不足している。
論文参考訳（メタデータ） (2023-11-20T17:17:29Z)
Too Good To Be True: performance overestimation in (re)current practices for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文参考訳（メタデータ） (2023-10-18T13:24:05Z)
Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文参考訳（メタデータ） (2023-09-28T13:04:11Z)
Pitfalls in Experiments with DNN4SE: An Analysis of the State of the Practice [0.7614628596146599]
我々は、ソフトウェアエンジニアリングのプレミア会場で発行された55の論文に現れるディープニューラルネットワークに依存する技術を用いて、194の実験を行い、マッピング研究を実施します。以上の結果から,ACMアーティファクトバッジを受信した者を含む実験の大部分が,その信頼性に疑問を呈する根本的な限界があることが判明した。
論文参考訳（メタデータ） (2023-05-19T09:55:48Z)
Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文参考訳（メタデータ） (2022-07-19T12:52:33Z)
TraSE: Towards Tackling Authorial Style from a Cognitive Science Perspective [4.123763595394021]
クロスドメインシナリオにおける27,000人以上の著者と1.4万のサンプルによるオーサリング属性実験の結果、90%のアトリビューション精度が得られた。年齢などの身体的特徴を用いて、TraSE上で定性的な分析を行い、認知的特徴を捉えているという主張を検証する。
論文参考訳（メタデータ） (2022-06-21T19:55:07Z)
SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文参考訳（メタデータ） (2021-10-26T20:13:17Z)
Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文参考訳（メタデータ） (2020-06-09T06:56:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。