論文の概要: An Empirical Study on Data Leakage and Generalizability of Link
Prediction Models for Issues and Commits
- arxiv url: http://arxiv.org/abs/2211.00381v2
- Date: Mon, 24 Apr 2023 11:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 23:28:16.138757
- Title: An Empirical Study on Data Leakage and Generalizability of Link
Prediction Models for Issues and Commits
- Title(参考訳): 問題とコミットに対するリンク予測モデルのデータの漏洩と一般化に関する実証的研究
- Authors: Maliheh Izadi, Pooya Rostami Mazrae, Tom Mens, Arie van Deursen
- Abstract要約: LinkFormerは既存の予測の精度を保存し、改善する。
実世界のシナリオを効果的にシミュレートするためには、研究者はデータの時間的流れを維持する必要がある。
- 参考スコア(独自算出の注目度): 7.061740334417124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To enhance documentation and maintenance practices, developers conventionally
establish links between related software artifacts manually. Empirical research
has revealed that developers frequently overlook this practice, resulting in
significant information loss. To address this issue, automatic link recovery
techniques have been proposed. However, these approaches primarily focused on
improving prediction accuracy on randomly-split datasets, with limited
attention given to the impact of data leakage and the generalizability of the
predictive models. LinkFormer seeks to address these limitations. Our approach
not only preserves and improves the accuracy of existing predictions but also
enhances their alignment with real-world settings and their generalizability.
First, to better utilize contextual information for prediction, we employ the
Transformer architecture and fine-tune multiple pre-trained models on both
textual and metadata information of issues and commits. Next, to gauge the
effect of time on model performance, we employ two splitting policies during
both the training and testing phases; randomly- and temporally-split datasets.
Finally, in pursuit of a generic model that can demonstrate high performance
across a range of projects, we undertake additional fine-tuning of LinkFormer
within two distinct transfer-learning settings. Our findings support that to
simulate real-world scenarios effectively, researchers must maintain the
temporal flow of data when training models. Furthermore, the results
demonstrate that LinkFormer outperforms existing methodologies by a significant
margin, achieving a 48% improvement in F1-measure within a project-based
setting. Finally, the performance of LinkFormer in the cross-project setting is
comparable to its average performance within the project-based scenario.
- Abstract(参考訳): ドキュメントとメンテナンスのプラクティスを強化するため、開発者は従来、関連するソフトウェアアーティファクト間のリンクを手動で確立する。
実証的な研究により、開発者はこのプラクティスをしばしば見落とし、重大な情報を失うことが判明した。
この問題に対処するため,自動リンクリカバリ手法が提案されている。
しかし、これらの手法は主にランダムに分割されたデータセットの予測精度の改善に重点を置いており、データ漏洩の影響や予測モデルの一般化可能性に制限がある。
LinkFormerはこれらの制限に対処しようとしている。
提案手法は,既存の予測の精度を保存・改善するだけでなく,実環境設定との整合性や一般化性を向上させる。
まず,コンテクスト情報をより効果的に活用するために,問題やコミットのテキスト情報とメタデータ情報の両方にトランスフォーマアーキテクチャと事前学習された複数のモデルを用いる。
次に,モデル性能に及ぼす時間の影響を計測するために,トレーニングとテストの両面で,ランダムおよび時分割データセットという2つの分割ポリシを採用する。
最後に、さまざまなプロジェクトにわたってハイパフォーマンスを実証できる汎用モデルを追求するため、2つの異なるトランスファー学習設定内でLinkFormerを微調整する。
実世界のシナリオを効果的にシミュレートするために、研究者はトレーニングモデルにおけるデータの時間的フローを維持する必要がある。
さらに,linkformerは既存手法をかなり上回っており,プロジェクトベースでf1測定値が48%向上した。
最後に、プロジェクト横断設定におけるLinkFormerのパフォーマンスは、プロジェクトベースのシナリオにおける平均パフォーマンスに匹敵する。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Realistic Re-evaluation of Knowledge Graph Completion Methods: An
Experimental Study [0.0]
本論文は,埋め込みモデルの真の有効性を評価することを目的とした,最初の体系的研究である。
実験の結果、これらのモデルは以前よりもはるかに精度が低いことが分かりました。
論文 参考訳(メタデータ) (2020-03-18T01:18:09Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。