論文の概要: Towards Causal Analysis of Empirical Software Engineering Data: The
Impact of Programming Languages on Coding Competitions
- arxiv url: http://arxiv.org/abs/2301.07524v6
- Date: Fri, 1 Sep 2023 12:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:37:50.502975
- Title: Towards Causal Analysis of Empirical Software Engineering Data: The
Impact of Programming Languages on Coding Competitions
- Title(参考訳): 経験的ソフトウェアエンジニアリングデータの因果解析に向けて:プログラミング言語がコーディング競争に与える影響
- Authors: Carlo A. Furia, Richard Torkar, Robert Feldt
- Abstract要約: 本稿では,構造因果モデルに基づく新しい手法について述べる。
Code Jamにおけるプログラマのパフォーマンスに関する公開データを解析するために,これらのアイデアを適用した。
全く同じデータの純粋に関連性のある解析と因果解析の間には,かなりの差が認められた。
- 参考スコア(独自算出の注目度): 10.51554436183424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is abundant observational data in the software engineering domain,
whereas running large-scale controlled experiments is often practically
impossible. Thus, most empirical studies can only report statistical
correlations -- instead of potentially more insightful and robust causal
relations. To support analyzing purely observational data for causal relations,
and to assess any differences between purely predictive and causal models of
the same data, this paper discusses some novel techniques based on structural
causal models (such as directed acyclic graphs of causal Bayesian networks).
Using these techniques, one can rigorously express, and partially validate,
causal hypotheses; and then use the causal information to guide the
construction of a statistical model that captures genuine causal relations --
such that correlation does imply causation. We apply these ideas to analyzing
public data about programmer performance in Code Jam, a large world-wide coding
contest organized by Google every year. Specifically, we look at the impact of
different programming languages on a participant's performance in the contest.
While the overall effect associated with programming languages is weak compared
to other variables -- regardless of whether we consider correlational or causal
links -- we found considerable differences between a purely associational and a
causal analysis of the very same data. The takeaway message is that even an
imperfect causal analysis of observational data can help answer the salient
research questions more precisely and more robustly than with just purely
predictive techniques -- where genuine causal effects may be confounded.
- Abstract(参考訳): ソフトウェア工学領域には豊富な観測データがあるが、大規模に制御された実験の実行は事実上不可能であることが多い。
したがって、ほとんどの実証研究は、より洞察力と堅牢な因果関係ではなく、統計的相関のみを報告できる。
因果関係のための純粋観測データの解析を支援し,同一データの純粋予測モデルと因果関係モデルの違いを評価するために,構造因果モデル(因果ベイズネットワークの有向非巡回グラフなど)に基づく新しい手法について論じる。
これらの手法を用いることで、因果仮説を厳密に表現し、部分的に検証し、因果情報を用いて真正な因果関係を捉える統計的モデルの構築を導くことができる。
これらのアイデアを,Googleが毎年開催している世界規模のコーディングコンテストCode Jamで,プログラマのパフォーマンスに関する公開データの解析に適用する。
具体的には、コンテストの参加者のパフォーマンスに異なるプログラミング言語が与える影響について考察する。
プログラミング言語に関連する全体的な効果は、相関性や因果関係を考慮しても、他の変数と比較して弱いが、純粋に関連性のあるデータと全く同じデータの因果関係の分析の間にはかなりの違いがある。
得られたメッセージは、観測データの完全な因果分析でさえ、純粋に予測された技術よりも厳密な研究課題に、より正確に、より堅牢に答えることができるということだ。
関連論文リスト
- Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - A Survey on Causal Discovery Methods for I.I.D. and Time Series Data [4.57769506869942]
因果発見(CD)アルゴリズムは、関連する観測データからシステムの変数間の因果関係を識別することができる。
本稿では、独立および同一分散データ(I.I.D.)データと時系列データの両方から因果発見を行うために設計された手法について広範な議論を行う。
論文 参考訳(メタデータ) (2023-03-27T09:21:41Z) - DOMINO: Visual Causal Reasoning with Time-Dependent Phenomena [59.291745595756346]
本研究では,時間遅延のウィンドウに関連する因果関係の発見に人間が参加できる視覚分析手法を提案する。
具体的には、論理に基づく因果関係の確立した手法を活用し、分析者が潜在的な原因の重要性を検証できるようにする。
効果は他の効果の原因となりうるので,本手法で検出した時間的要因と効果の関係を視覚フロー図にまとめることができる。
論文 参考訳(メタデータ) (2023-03-12T03:40:21Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Causal Regularization Using Domain Priors [23.31291916031858]
そこで本研究では,因果ドメインをネットワークに組み込む因果正規化手法を提案する。
このアプローチは様々な因果前の仕様に一般化可能であることを示す。
ほとんどのデータセットでは、精度を犠牲にすることなくドメイン優先の一貫性のあるモデルを得ることができる。
論文 参考訳(メタデータ) (2021-11-24T13:38:24Z) - Uncovering Main Causalities for Long-tailed Information Extraction [14.39860866665021]
データセットの選択バイアスによって引き起こされる長い尾の分布は、誤った相関をもたらす可能性がある。
これは、データの背後にある主な因果関係を明らかにすることを目的とした、新しいフレームワークである。
論文 参考訳(メタデータ) (2021-09-11T08:08:24Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Amortized Causal Discovery: Learning to Infer Causal Graphs from
Time-Series Data [63.15776078733762]
本稿では,時系列データから因果関係を推定する新しいフレームワークであるAmortized Causal Discoveryを提案する。
本研究では,本手法が変分モデルとして実装され,因果発見性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:59:12Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z) - Selecting Data Augmentation for Simulating Interventions [12.848239550098693]
純粋に観察データで訓練された機械学習モデルと経験的リスクの原則は、目に見えない領域に一般化することができない。
我々は、データ拡張の成功を説明するために、観察されたドメインとタスクラベルの急激な相関を弱める方法を説明するために、因果的概念を用いることができると論じる。
論文 参考訳(メタデータ) (2020-05-04T21:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。