論文の概要: Representation of Developer Expertise in Open Source Software
- arxiv url: http://arxiv.org/abs/2005.10176v3
- Date: Tue, 2 Feb 2021 11:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 06:16:54.237417
- Title: Representation of Developer Expertise in Open Source Software
- Title(参考訳): オープンソースソフトウェアにおける開発者エキスパートの表現
- Authors: Tapajit Dey, Andrey Karnauch, Audris Mockus
- Abstract要約: We use the World of Code infrastructure to extract the complete set of APIs in the file changed by the open source developer。
次に、API、開発者、プロジェクトのベクター表現にDoc2Vecの埋め込みを使用します。
これらの埋め込みがスキル空間の仮定トポロジを反映しているかどうかを評価する。
- 参考スコア(独自算出の注目度): 12.583969739954526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Accurate representation of developer expertise has always been an
important research problem. While a number of studies proposed novel methods of
representing expertise within individual projects, these methods are difficult
to apply at an ecosystem level. However, with the focus of software development
shifting from monolithic to modular, a method of representing developers'
expertise in the context of the entire OSS development becomes necessary when,
for example, a project tries to find new maintainers and look for developers
with relevant skills. Aim: We aim to address this knowledge gap by proposing
and constructing the Skill Space where each API, developer, and project is
represented and postulate how the topology of this space should reflect what
developers know (and projects need). Method: we use the World of Code
infrastructure to extract the complete set of APIs in the files changed by open
source developers and, based on that data, employ Doc2Vec embeddings for vector
representations of APIs, developers, and projects. We then evaluate if these
embeddings reflect the postulated topology of the Skill Space by predicting
what new APIs/projects developers use/join, and whether or not their pull
requests get accepted. We also check how the developers' representations in the
Skill Space align with their self-reported API expertise. Result: Our results
suggest that the proposed embeddings in the Skill Space appear to satisfy the
postulated topology and we hope that such representations may aid in the
construction of signals that increase trust (and efficiency) of open source
ecosystems at large and may aid investigations of other phenomena related to
developer proficiency and learning.
- Abstract(参考訳): 背景: 開発者の専門知識の正確な表現は常に重要な研究課題です。
多くの研究が個々のプロジェクト内で専門知識を表現する新しい手法を提案しているが、これらの手法は生態系レベルでは適用が困難である。
しかし、ソフトウェア開発がモノリシックからモジュラーへとシフトするにつれ、例えばプロジェクトが新しいメンテナを見つけ、関連するスキルを持つ開発者を探そうとするときに、OSS開発全体のコンテキストにおける開発者の専門知識を表現する方法が必要である。
目的: 私たちは,各apiや開発者,プロジェクトが表現されるスキルスペースの提案と構築を通じて,この知識ギャップに対処することを目的としています。
メソッド: 私たちはWorld of Codeインフラストラクチャを使用して、オープンソース開発者が変更したファイルの完全なAPIセットを抽出し、そのデータに基づいて、API、開発者、プロジェクトのベクトル表現にDoc2Vec埋め込みを使用します。
これらの埋め込みがSkill Spaceの仮定されたトポロジを反映しているかどうかを、開発者が使用/参加する新しいAPIやプロジェクト、プルリクエストが受け入れられるかどうかを予測することで評価します。
また、Skill Spaceにおける開発者の表現が、自己報告のAPIの専門知識とどのように一致しているかを確認します。
結果: 提案するスキル空間への埋め込みは, 仮定されたトポロジーを満足しているように思われる。このような表現が, オープンソースエコシステム全体の信頼(と効率)を高めるシグナルの構築に寄与し, 開発者の習熟度や学習に関連する他の現象の調査に役立つことを期待する。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Knowledge Islands: Visualizing Developers Knowledge Concentration [0.0]
Knowledge Islandsは、最先端の知識モデルを使用して、ソフトウェアリポジトリ内の知識の集中を可視化するツールである。
GitHubプロジェクトを分析し、知識がどこに集中しているかを判断し、プロジェクトの健全性を維持するための手段を実装することができる。
論文 参考訳(メタデータ) (2024-08-16T13:32:49Z) - The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.23208165760114]
ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
論文 参考訳(メタデータ) (2024-06-24T15:55:49Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Enhancing API Documentation through BERTopic Modeling and Summarization [0.0]
本稿では、アプリケーションプログラミングインタフェース(API)ドキュメントの解釈の複雑さに焦点を当てる。
公式APIドキュメンテーションは、開発者にとって最も重要な情報ソースであるが、広くなり、ユーザフレンドリ性に欠けることが多い。
我々の新しいアプローチは、トピックモデリングと自然言語処理(NLP)にBERTopicの長所を利用して、APIドキュメントの要約を自動的に生成する。
論文 参考訳(メタデータ) (2023-08-17T15:57:12Z) - Code Recommendation for Open Source Software Developers [32.181023933552694]
CODERは、オープンソースのソフトウェア開発者のための新しいグラフベースのコードレコメンデーションフレームワークである。
本フレームワークは,プロジェクト内,クロスプロジェクト,コールドスタートレコメンデーションなど,様々な実験環境下での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T16:40:36Z) - Dev2vec: Representing Domain Expertise of Developers in an Embedding
Space [10.321562340915406]
私たちは、開発者のドメインの専門知識をベクトルの埋め込みとして表現するために、doc2vecを使用します。
これらのベクトルは、開発者の専門知識の証拠を含む異なる情報源に由来する。
組込みベクトルにおける開発者の専門知識の符号化は最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T18:56:49Z) - Enabling collaborative data science development with the Ballet
framework [9.424574945499844]
本稿では,データサイエンスのコラボレーションをスケールするための新しい概念的フレームワークとmlプログラミングモデルを提案する。
Balletはオープンソースのデータサイエンスを共同で行うための軽量ソフトウェアフレームワークです。
論文 参考訳(メタデータ) (2020-12-14T18:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。