論文の概要: StackOverflow vs Kaggle: A Study of Developer Discussions About Data
Science
- arxiv url: http://arxiv.org/abs/2006.08334v1
- Date: Sat, 6 Jun 2020 06:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:49:56.104996
- Title: StackOverflow vs Kaggle: A Study of Developer Discussions About Data
Science
- Title(参考訳): StackOverflow vs. Kaggle: データサイエンスに関する開発者の議論
- Authors: David Hin
- Abstract要約: 本稿では,StackOverflowとKaggleの197836ポストの特性について実験を行った。
主な発見は、StackOverflowで最も多いトピックに関するものだ。
どちらのコミュニティでも、DSに関する議論は劇的なペースで増えている。
アンサンブルアルゴリズムはKaggleで最も言及されているML/DLアルゴリズムであるが、StackOverflowではほとんど議論されていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software developers are increasingly required to understand fundamental Data
science (DS) concepts. Recently, the presence of machine learning (ML) and deep
learning (DL) has dramatically increased in the development of user
applications, whether they are leveraged through frameworks or implemented from
scratch. These topics attract much discussion on online platforms. This paper
conducts large-scale qualitative and quantitative experiments to study the
characteristics of 197836 posts from StackOverflow and Kaggle. Latent Dirichlet
Allocation topic modelling is used to extract twenty-four DS discussion topics.
The main findings include that TensorFlow-related topics were most prevalent in
StackOverflow, while meta discussion topics were the prevalent ones on Kaggle.
StackOverflow tends to include lower-level troubleshooting, while Kaggle
focuses on practicality and optimising leaderboard performance. In addition,
across both communities, DS discussion is increasing at a dramatic rate. While
TensorFlow discussion on StackOverflow is slowing, interest in Keras is rising.
Finally, ensemble algorithms are the most mentioned ML/DL algorithms in Kaggle
but are rarely discussed on StackOverflow. These findings can help educators
and researchers to more effectively tailor and prioritise efforts in
researching and communicating DS concepts towards different developer
communities.
- Abstract(参考訳): ソフトウェア開発者は、基本データサイエンス(DS)の概念を理解する必要がある。
近年、機械学習(ML)とディープラーニング(DL)の存在は、フレームワークを通じて活用されるか、ゼロから実装されるかにかかわらず、ユーザアプリケーションの開発において劇的に増加している。
これらの話題はオンラインプラットフォーム上で多くの議論を巻き起こしている。
本稿では,stackoverflow と kaggle の 197836 ポストの特性を調べるために,大規模定性的かつ定量的な実験を行う。
遅延ディリクレ割当トピックモデリングは、24のDSトピックを抽出するために使用される。
主な発見は、TensorFlow関連のトピックがStackOverflowでもっとも多いのに対して、メタディスカッショントピックがKaggleでもっとも多かったことだ。
StackOverflowは低いレベルのトラブルシューティングを含む傾向があり、Kaggleは実用性とリーダボードのパフォーマンスの最適化に重点を置いている。
加えて、両方のコミュニティでdsの議論が劇的なペースで増加している。
StackOverflowに関するTensorFlowの議論は遅くなっているが、Kerasへの関心は高まっている。
最後に、アンサンブルアルゴリズムはKaggleで最も言及されているML/DLアルゴリズムであるが、StackOverflowではほとんど議論されない。
これらの発見は、教育者や研究者がdsの概念を異なる開発者コミュニティに調査し、伝達する努力をより効果的に調整し優先順位付けるのに役立つ。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - A Tale of Two Communities: Exploring Academic References on Stack Overflow [1.2914230269240388]
異なる分野の関心を持つStack Overflowコミュニティが、様々な周波数と速度で学術文献を扱っていることがわかった。
矛盾するパターンは、一部の規律が、その利益と開発軌道を、対応する実践者コミュニティから逸脱した可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-03-14T20:33:55Z) - ChatGPT vs LLaMA: Impact, Reliability, and Challenges in Stack Overflow
Discussions [13.7001994656622]
ChatGPTは、プログラミングとソフトウェア開発に関する開発者のクエリのためのプレミアプラットフォームであるStack Overflowを揺るがした。
ChatGPTのリリースから2ヶ月後、MetaはLLaMAという独自のLarge Language Model (LLM)で回答を発表した。
論文 参考訳(メタデータ) (2024-02-13T21:15:33Z) - RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal
Sentiment Classification [70.9087014537896]
目的指向型マルチモーダル感性分類(TMSC)は,学者の間でも注目されている。
この問題の原因を明らかにするために,データセットの広範な実験的評価と詳細な分析を行う。
論文 参考訳(メタデータ) (2023-10-14T14:52:37Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Answer ranking in Community Question Answering: a deep learning approach [0.0]
本研究は, 地域質問回答の回答ランキングを, 深層学習のアプローチで進めることによって, 技術の現状を推し進めるものである。
Stack OverflowのWebサイトにポストされた質問と回答の大規模なデータセットを作成しました。
我々は,高密度埋め込みとLSTMネットワークの自然言語処理機能を利用して,受理された応答属性の予測を行った。
論文 参考訳(メタデータ) (2022-10-16T18:47:41Z) - Attention-based model for predicting question relatedness on Stack
Overflow [0.0]
Stack Overflowにおける質問間の関連性を自動的に予測するアテンションベースの文対相互作用モデル(ASIM)を提案する。
ASIMは、Precision、Recall、Micro-F1評価メトリクスのベースラインアプローチを大幅に改善しました。
私たちのモデルは、Ask Ubuntuの重複質問検出タスクでもうまく機能します。
論文 参考訳(メタデータ) (2021-03-19T12:18:03Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - Unification of HDP and LDA Models for Optimal Topic Clustering of
Subject Specific Question Banks [55.41644538483948]
オンラインコースの人気が高まると、学者向けのコース関連クエリの数が増加することになる。
個々の質問に答えるのに費やす時間を短縮するために、それらをクラスタリングするのは理想的な選択です。
階層ディリクレプロセスを用いて、LDAモデルの実行に対して最適なトピック番号を入力します。
論文 参考訳(メタデータ) (2020-10-04T18:21:20Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。