論文の概要: The Role of Data Filtering in Open Source Software Ranking and Selection
- arxiv url: http://arxiv.org/abs/2401.10136v1
- Date: Thu, 18 Jan 2024 17:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:46:35.270526
- Title: The Role of Data Filtering in Open Source Software Ranking and Selection
- Title(参考訳): オープンソースソフトウェアランキングと選択におけるデータフィルタリングの役割
- Authors: Addi Malviya-Thakur, Audris Mockus
- Abstract要約: GitHubにリストされているプロジェクトのフィルタリングが、その人気の評価にどのように影響するかを調査する。
10万以上のレポジトリをランダムにサンプリングし、複数のレグレッションを使って星数をモデル化しました。
その結果,リポジトリの特定の特性が常に人気を予測しているのに対して,フィルタ処理はこれらの特性と応答の関係を著しく変化させることがわかった。
- 参考スコア(独自算出の注目度): 4.64854945726664
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Faced with over 100M open source projects most empirical investigations
select a subset. Most research papers in leading venues investigated filtering
projects by some measure of popularity with explicit or implicit arguments that
unpopular projects are not of interest, may not even represent "real" software
projects, or that less popular projects are not worthy of study. However, such
filtering may have enormous effects on the results of the studies if and
precisely because the sought-out response or prediction is in any way related
to the filtering criteria.
We exemplify the impact of this practice on research outcomes: how filtering
of projects listed on GitHub affects the assessment of their popularity. We
randomly sample over 100,000 repositories and use multiple regression to model
the number of stars (a proxy for popularity) based on the number of commits,
the duration of the project, the number of authors, and the number of core
developers. Comparing control with the entire dataset with a filtered model
projects having ten or more authors we find that while certain characteristics
of the repository consistently predict popularity, the filtering process
significantly alters the relation ships between these characteristics and the
response. The number of commits exhibited a positive correlation with
popularity in the control sample but showed a negative correlation in the
filtered sample. These findings highlight the potential biases introduced by
data filtering and emphasize the need for careful sample selection in empirical
research of mining software repositories. We recommend that empirical work
should either analyze complete datasets such as World of Code, or employ
stratified random sampling from a complete dataset to ensure that filtering is
not biasing the results.
- Abstract(参考訳): 100万以上のオープンソースプロジェクトに直面した経験的調査のほとんどは、サブセットを選択する。
主要な会場のほとんどの研究論文は、不人気なプロジェクトは興味がない、"本物の"ソフトウェアプロジェクトを表すことさえできない、あるいはあまり人気がないプロジェクトは研究に値するものではない、という明示的あるいは暗黙的な議論によって、プロジェクトをフィルタリングすることを調査した。
しかし、このようなフィルタリングは、求める応答や予測がフィルタリング基準と何らかの関係があるため、研究結果に大きな影響を及ぼす可能性がある。
私たちは、このプラクティスが研究結果に与える影響を例示している: githubにリストされたプロジェクトのフィルタリングが、彼らの人気評価にどのように影響するか。
10万を超えるレポジトリをランダムにサンプリングし、コミット数、プロジェクトの期間、著者数、コア開発者数に基づいて、スター数(人気を表すプロキシ)をモデル化するために複数のレグレッションを使用します。
データセット全体の制御と10人以上の著者を持つフィルタリングモデルプロジェクトを比較すると,リポジトリの特定の特性が常に人気を予測しているのに対して,フィルタリングプロセスはこれらの特性と応答の関係を著しく変化させることがわかった。
コミット数とコントロールサンプルの人気度は正の相関を示したが,フィルタ標本では負の相関を示した。
これらの知見は、データフィルタリングによってもたらされる潜在的なバイアスを強調し、マイニングソフトウェアリポジトリの実験的研究において、慎重にサンプルを選択する必要性を強調している。
実験的な作業では、コードの世界のような完全なデータセットを分析するか、フィルタリングが結果に偏らないよう、完全なデータセットから階層化されたランダムサンプリングを使用することを推奨する。
関連論文リスト
- Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp [13.749279800238092]
画像テキストデータフィルタリングにはバイアスがあり、値レイデンであることを示す。
いくつかの差し迫った人口集団に関するデータは、排除率の上昇に関連している。
私たちの結論は、データセットの作成とフィルタリングのプラクティスに根本的な変更が必要であることを示している。
論文 参考訳(メタデータ) (2024-05-13T21:53:06Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - A Critical Analysis of Classifier Selection in Learned Bloom Filters [0.3359875577705538]
フィルタ構築に使用されるデータの"複雑さ"は、そのパフォーマンスに大きく影響する可能性がある。
本稿では,学習ブルームフィルタの設計,解析,実装のための新しい手法を提案する。
提案手法とサポートソフトウェアは有効かつ有用であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-11-28T17:17:18Z) - Source data selection for out-of-domain generalization [0.76146285961466]
ソースデータセットの貧弱な選択は、ターゲットのパフォーマンスを低下させる可能性がある。
マルチバンド理論とランダム探索に基づく2つのソース選択手法を提案する。
提案手法は, 利用可能なサンプルのランダムな選択よりも優れた再重み付けされたサブサンプルの存在を診断するものであるとみなすことができる。
論文 参考訳(メタデータ) (2022-02-04T14:37:31Z) - Outlier Detection as Instance Selection Method for Feature Selection in
Time Series Classification [0.0]
まれなインスタンスのための機能選択メソッドに提供されるフィルタインスタンス。
一部のデータセットでは、結果としてパフォーマンスが向上したのはわずか数パーセントだった。
他のデータセットでは、最大16%のパフォーマンス向上を実現しました。
論文 参考訳(メタデータ) (2021-11-16T14:44:33Z) - Multi-characteristic Subject Selection from Biased Datasets [79.82881947891589]
本稿では,異なる集団群に対する最良サンプリング分数を求める制約付き最適化に基づく手法を提案する。
その結果,提案手法がすべての問題変化のベースラインを最大90%上回っていることが示された。
論文 参考訳(メタデータ) (2020-12-18T15:55:27Z) - Surprise: Result List Truncation via Extreme Value Theory [92.5817701697342]
そこで本研究では,問合せ時における可逆的・校正的関連度スコアを,ランク付けされたスコアに留まらず,統計的に生成する手法を提案する。
本稿では、画像、テキスト、IRデータセット間での結果リストのトランケーションタスクにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2020-10-19T19:15:50Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。