論文の概要: Dev2vec: Representing Domain Expertise of Developers in an Embedding
Space
- arxiv url: http://arxiv.org/abs/2207.05132v1
- Date: Mon, 11 Jul 2022 18:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 15:53:26.559956
- Title: Dev2vec: Representing Domain Expertise of Developers in an Embedding
Space
- Title(参考訳): Dev2vec: 埋め込みスペースにおける開発者のドメインエキスパートを表現する
- Authors: Arghavan Moradi Dakhel, Michel C. Desmarais, Foutse Khomh
- Abstract要約: 私たちは、開発者のドメインの専門知識をベクトルの埋め込みとして表現するために、doc2vecを使用します。
これらのベクトルは、開発者の専門知識の証拠を含む異なる情報源に由来する。
組込みベクトルにおける開発者の専門知識の符号化は最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.321562340915406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate assessment of the domain expertise of developers is important for
assigning the proper candidate to contribute to a project or to attend a job
role. Since the potential candidate can come from a large pool, the automated
assessment of this domain expertise is a desirable goal. While previous methods
have had some success within a single software project, the assessment of a
developer's domain expertise from contributions across multiple projects is
more challenging. In this paper, we employ doc2vec to represent the domain
expertise of developers as embedding vectors. These vectors are derived from
different sources that contain evidence of developers' expertise, such as the
description of repositories that they contributed, their issue resolving
history, and API calls in their commits. We name it dev2vec and demonstrate its
effectiveness in representing the technical specialization of developers. Our
results indicate that encoding the expertise of developers in an embedding
vector outperforms state-of-the-art methods and improves the F1-score up to
21%. Moreover, our findings suggest that ``issue resolving history'' of
developers is the most informative source of information to represent the
domain expertise of developers in embedding spaces.
- Abstract(参考訳): プロジェクトへのコントリビューションや仕事への参加に適切な候補を割り当てるのには、開発者のドメイン知識の正確な評価が重要です。
潜在的な候補は大きなプールから得ることができるので、このドメインの専門知識の自動評価は望ましい目標です。
以前の手法は単一のソフトウェアプロジェクトである程度成功したが、複数のプロジェクトにまたがる貢献から開発者ドメインの専門知識を評価することはより困難である。
本稿では,doc2vecを用いて,開発者のドメイン知識を組込みベクトルとして表現する。
これらのベクタは、コントリビュートしたリポジトリの記述、問題の解決履歴、コミット中のAPI呼び出しなど、開発者の専門知識の証拠を含む、さまざまなソースから派生している。
dev2vecと命名し、開発者の技術的専門化を表わす効果を実証する。
その結果,組込みベクトルにおける開発者の専門知識の符号化は最先端の手法より優れ,F1スコアは最大21%向上した。
さらに, 「課題解決履歴」 は, 組込み空間における開発者のドメイン知識を表現する情報源として最も有益であることが示唆された。
関連論文リスト
- Knowledge Islands: Visualizing Developers Knowledge Concentration [0.0]
Knowledge Islandsは、最先端の知識モデルを使用して、ソフトウェアリポジトリ内の知識の集中を可視化するツールである。
GitHubプロジェクトを分析し、知識がどこに集中しているかを判断し、プロジェクトの健全性を維持するための手段を実装することができる。
論文 参考訳(メタデータ) (2024-08-16T13:32:49Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Redefining Developer Assistance: Through Large Language Models in Software Ecosystem [0.5580128181112308]
本稿では,インストラクションチューニングによって開発されたDevAssistLlamaを紹介し,ソフトウェア関連自然言語クエリの処理を支援する。
DevAssistLlamaは、特に複雑な技術ドキュメントの扱いに長けており、ソフトウェア固有のタスクにおける開発者の能力を向上させる。
論文 参考訳(メタデータ) (2023-12-09T18:02:37Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Who is the Real Hero? Measuring Developer Contribution via
Multi-dimensional Data Integration [8.735393610868435]
開発者のコントリビューションを測定するための多次元情報融合に基づくアプローチであるCValueを提案する。
CValueは4次元のソースコードから構文情報と意味情報を抽出する。
プロジェクト内の各コミットに対するコントリビューションスコアを生成するために、情報をフューズする。
論文 参考訳(メタデータ) (2023-08-17T13:57:44Z) - Code Recommendation for Open Source Software Developers [32.181023933552694]
CODERは、オープンソースのソフトウェア開発者のための新しいグラフベースのコードレコメンデーションフレームワークである。
本フレームワークは,プロジェクト内,クロスプロジェクト,コールドスタートレコメンデーションなど,様々な実験環境下での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T16:40:36Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - Empowered and Embedded: Ethics and Agile Processes [60.63670249088117]
私たちは倫理的考慮事項を(アジャイル)ソフトウェア開発プロセスに組み込む必要があると論じています。
私たちは、すでに存在しており、確立されたアジャイルソフトウェア開発プロセスで倫理的な議論を実施する可能性を強調しました。
論文 参考訳(メタデータ) (2021-07-15T11:14:03Z) - Representation of Developer Expertise in Open Source Software [12.583969739954526]
We use the World of Code infrastructure to extract the complete set of APIs in the file changed by the open source developer。
次に、API、開発者、プロジェクトのベクター表現にDoc2Vecの埋め込みを使用します。
これらの埋め込みがスキル空間の仮定トポロジを反映しているかどうかを評価する。
論文 参考訳(メタデータ) (2020-05-20T16:36:07Z) - Domain Adaptive Ensemble Learning [141.98192460069765]
両問題に対処するため,ドメイン適応アンサンブル学習(DAEL)という統合フレームワークを提案する。
3つのマルチソースUDAデータセットと2つのDGデータセットの実験により、DAELは両方の問題、しばしば大きなマージンによって、技術の状態を改善することが示された。
論文 参考訳(メタデータ) (2020-03-16T16:54:15Z) - Domain Adaption for Knowledge Tracing [65.86619804954283]
本稿では,DAKT問題に対処するための新しい適応型フレームワーク,すなわち知識追跡(AKT)を提案する。
まず,Deep Knowledge Trace(DKT)に基づく教育的特徴(スリップ,推測,質問文など)を取り入れ,優れた知識追跡モデルを得る。
第2の側面として、3つのドメイン適応プロセスを提案し、採用する。まず、ターゲットモデルトレーニングに有用なソースインスタンスを選択するために、自動エンコーダを事前訓練する。
論文 参考訳(メタデータ) (2020-01-14T15:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。