論文の概要: Stack Overflow Meets Replication: Security Research Amid Evolving Code Snippets (Extended Version)
- arxiv url: http://arxiv.org/abs/2501.16948v2
- Date: Thu, 30 Jan 2025 10:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 11:52:46.078447
- Title: Stack Overflow Meets Replication: Security Research Amid Evolving Code Snippets (Extended Version)
- Title(参考訳): Stack Overflowがレプリケーションに遭遇 - コードスニペットの進化(拡張バージョン)中のセキュリティ研究
- Authors: Alfusainey Jallow, Sven Bugiel,
- Abstract要約: 我々は2005年から2023年にかけて発行された論文を体系的にレビューし、結果に影響を与えるStack Overflowの重要な側面を特定した。
分析の結果、ある側面が時間とともに非定常であることが判明し、実験を異なるタイミングで繰り返すと、異なる結論が導かれる可能性が示唆された。
- 参考スコア(独自算出の注目度): 6.3975188650077355
- License:
- Abstract: We study the impact of Stack Overflow code evolution on the stability of prior research findings derived from Stack Overflow data and provide recommendations for future studies. We systematically reviewed papers published between 2005--2023 to identify key aspects of Stack Overflow that can affect study results, such as the language or context of code snippets. Our analysis reveals that certain aspects are non-stationary over time, which could lead to different conclusions if experiments are repeated at different times. We replicated six studies using a more recent dataset to demonstrate this risk. Our findings show that four papers produced significantly different results than the original findings, preventing the same conclusions from being drawn with a newer dataset version. Consequently, we recommend treating Stack Overflow as a time series data source to provide context for interpreting cross-sectional research conclusions.
- Abstract(参考訳): 本稿では,Stack Overflowのコード進化がStack Overflowデータから得られた先行研究結果の安定性に与える影響について検討し,今後の研究を推奨する。
我々は2005年から2023年にかけて発行された論文を体系的にレビューし、Stack Overflowの重要な側面、例えば言語やコードスニペットのコンテキストなど、研究結果に影響を与える可能性のあるものを特定した。
分析の結果、ある側面が時間とともに非定常であることが判明し、実験を異なるタイミングで繰り返すと、異なる結論が導かれる可能性が示唆された。
我々は、このリスクを示すために、より最近のデータセットを使用して6つの研究を複製した。
その結果、4つの論文が元の結果と大きく異なる結果をもたらし、新しいデータセットバージョンで同じ結論が導き出されるのを防ぐことができた。
そこで我々は,Stack Overflowを時系列データソースとして扱うことを推奨する。
関連論文リスト
- Vertical Federated Learning for Effectiveness, Security, Applicability: A Survey [67.48187503803847]
Vertical Federated Learning(VFL)は、プライバシ保護のための分散学習パラダイムである。
近年の研究では、VFLの様々な課題に対処する有望な成果が示されている。
この調査は、最近の展開を体系的に概観する。
論文 参考訳(メタデータ) (2024-05-25T16:05:06Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Deep Learning for Multivariate Time Series Imputation: A Survey [36.72913706617057]
本稿では,最近提案されたディープラーニング計算手法に関する総合的な調査を行う。
本稿では,本手法の分類法を提案し,その強度と限界を明らかにすることによって,これらの手法の構造化されたレビューを行う。
また、異なる手法の研究や下流タスクの強化を比較するための実証実験も行います。
論文 参考訳(メタデータ) (2024-02-06T15:03:53Z) - A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。
複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文 参考訳(メタデータ) (2024-01-30T17:06:25Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Next-Year Bankruptcy Prediction from Textual Data: Benchmark and
Baselines [10.944533132358439]
倒産予測のモデルは、いくつかの現実世界のシナリオで有用である。
共通のベンチマークデータセットと評価戦略の欠如は、モデル間の客観的比較を妨げる。
本稿では、新しいデータセットと確立されたデータセットに基づいて、構造化されていないデータシナリオに対するそのようなベンチマークを紹介する。
論文 参考訳(メタデータ) (2022-08-24T07:11:49Z) - What do You Mean by Relation Extraction? A Survey on Datasets and Study
on Scientific Relation Classification [21.513743126525622]
本研究では,2つのデータセットの科学的関係分類に関する実証的研究を行った。
大量のデータの重複にもかかわらず,本分析はアノテーションにかなりの相違点を明らかにした。
さらにサブドメイン内での変化は存在するが、関係分類は限定的な程度にしか影響しない。
論文 参考訳(メタデータ) (2022-04-28T14:07:25Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Multi-characteristic Subject Selection from Biased Datasets [79.82881947891589]
本稿では,異なる集団群に対する最良サンプリング分数を求める制約付き最適化に基づく手法を提案する。
その結果,提案手法がすべての問題変化のベースラインを最大90%上回っていることが示された。
論文 参考訳(メタデータ) (2020-12-18T15:55:27Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。