論文の概要: Retrospective: Data Mining Static Code Attributes to Learn Defect Predictors
- arxiv url: http://arxiv.org/abs/2501.15662v1
- Date: Sun, 26 Jan 2025 19:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:31.830516
- Title: Retrospective: Data Mining Static Code Attributes to Learn Defect Predictors
- Title(参考訳): ふりかえり:データマイニング静的コード属性が欠陥予測を学習する
- Authors: Tim Menzies,
- Abstract要約: この短いメモは、その論文から何を思い出すべきか、何を忘れるべきなのかを反映しています。
最盛期には、この論文はSEの最も引用された論文(月に1回)であった。
2018年までに、主要なTSE論文の20%は、この研究によって導入され普及したアーティファクトを取り入れた。
- 参考スコア(独自算出の注目度): 13.19204187502255
- License:
- Abstract: Industry can get any research it wants, just by publishing a baseline result along with the data and scripts need to reproduce that work. For instance, the paper ``Data Mining Static Code Attributes to Learn Defect Predictors'' presented such a baseline, using static code attributes from NASA projects. Those result were enthusiastically embraced by a software engineering research community, hungry for data. At its peak (2016) this paper was SE's most cited paper (per month). By 2018, twenty percent of leading TSE papers (according to Google Scholar Metrics), incorporated artifacts introduced and disseminated by this research. This brief note reflects on what we should remember, and what we should forget, from that paper.
- Abstract(参考訳): 業界は、データとスクリプトとともにベースライン結果を公開するだけで、その成果を再現できる。
例えば、‘Data Mining Static Code Attributes to Learn Defect Predictors’という論文では、NASAプロジェクトの静的コード属性を使用して、このようなベースラインを提示している。
これらの結果は、データに飢えているソフトウェアエンジニアリング研究コミュニティに熱心に受け入れられた。
最盛期(2016年)には、この論文はSEの最も引用された論文(月に1回)となった。
2018年までに、トップのTSE論文の20%(Google Scholar Metricsによると)が、この研究によって導入された、普及したアーティファクトを組み込んだ。
この短いメモは、その論文から何を思い出すべきか、何を忘れるべきなのかを反映しています。
関連論文リスト
- Web Archives Metadata Generation with GPT-4o: Challenges and Insights [2.45723043286596]
本稿では,Web Singapore Archiveにおけるメタデータ生成におけるgpt-4oの利用について検討する。
データ削減技術を用いて112のWeb ARChive(WARC)ファイルを処理し、メタデータ生成コストを99.9%削減した。
この研究は、コンテンツ不正確性、幻覚、翻訳問題を含む主要な課題を特定し、人間カタログの置き換えではなく、Large Language Models(LLM)が補体として機能すべきであることを示唆している。
論文 参考訳(メタデータ) (2024-11-08T08:59:40Z) - Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models [0.0]
本稿では,注目機構と文脈情報を備えたBidirectional Long Short-Term Memory (BiLSTM) ネットワークを提案し,引用を必要とする文を検出する。
我々は、PubMed Open Access Subsetに基づく新しい大規模データセット(PMOA-CITE)を作成します。
論文 参考訳(メタデータ) (2024-05-20T17:45:36Z) - CausalCite: A Causal Formulation of Paper Citations [80.82622421055734]
CausalCiteは紙の意義を測定するための新しい方法だ。
これは、従来のマッチングフレームワークを高次元のテキスト埋め込みに適応させる、新しい因果推論手法であるTextMatchに基づいている。
科学専門家が報告した紙衝撃と高い相関性など,各種基準におけるCausalCiteの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-05T23:09:39Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - Automatic Metadata Extraction Incorporating Visual Features from Scanned
Electronic Theses and Dissertations [3.1354625918296612]
Electronic Theses と (ETD) には、多くのデジタルライブラリータスクに使用できるドメイン知識が含まれている。
従来のシーケンスタグ法は主にテキストベースの機能に依存している。
テキストベースと視覚的特徴を組み合わせた条件付きランダムフィールド(CRF)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T14:59:18Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。