論文の概要: An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks
- arxiv url: http://arxiv.org/abs/2401.03653v5
- Date: Mon, 30 Sep 2024 12:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:48.718420
- Title: An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks
- Title(参考訳): 深層学習フレームワーク開発における推定量の自動同定に関する探索的研究
- Authors: Chen Yang, Peng Liang, Zinan Ma,
- Abstract要約: 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。
本研究は,開発者とユーザの観点から,仮定を識別する目的で,異なる分類モデルを評価することを目的とする。
- 参考スコア(独自算出の注目度): 3.457512613793633
- License:
- Abstract: Stakeholders constantly make assumptions in the development of deep learning (DL) frameworks. These assumptions are related to various types of software artifacts (e.g., requirements, design decisions, and technical debt) and can turn out to be invalid, leading to system failures. Existing approaches and tools for assumption management usually depend on manual identification of assumptions. However, assumptions are scattered in various sources (e.g., code comments, commits, pull requests, and issues) of DL framework development, and manually identifying assumptions has high costs. This study intends to evaluate different classification models for the purpose of identification with respect to assumptions from the point of view of developers and users in the context of DL framework projects (i.e., issues, pull requests, and commits) on GitHub. First, we constructed a new and largest dataset (i.e., the AssuEval dataset) of assumptions collected from the TensorFlow and Keras repositories on GitHub. Then we explored the performance of seven non-transformers based models (e.g., Support Vector Machine, Classification and Regression Trees), the ALBERT model, and three decoder-only models (i.e., ChatGPT, Claude, and Gemini) for identifying assumptions on the AssuEval dataset. The study results show that ALBERT achieves the best performance (f1-score: 0.9584) for identifying assumptions on the AssuEval dataset, which is much better than the other models (the 2nd best f1-score is 0.8858, achieved by the Claude 3.5 Sonnet model). Though ChatGPT, Claude, and Gemini are popular models, we do not recommend using them to identify assumptions in DL framework development because of their low performance. Fine-tuning ChatGPT, Claude, Gemini, or other language models (e.g., Llama3, Falcon, and BLOOM) specifically for assumptions might improve their performance for assumption identification.
- Abstract(参考訳): ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。
これらの仮定は、さまざまな種類のソフトウェアアーティファクト(要件、設計決定、技術的負債など)に関連しており、結果として無効になり、システム障害につながる可能性がある。
既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。
しかし、仮定はDLフレームワークの開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に散在しており、手動で仮定を特定することはコストが高い。
この研究は、GitHub上のDLフレームワークプロジェクト(イシュー、プルリクエスト、コミット)のコンテキストにおいて、開発者とユーザの視点で仮定を識別するために異なる分類モデルを評価することを目的としている。
まず、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEvalデータセット)を構築しました。
次に、AssuEvalデータセット上の仮定を特定するために、7つの非トランスフォーマーベースモデル(例えば、サポートベクトルマシン、分類と回帰ツリー)、ALBERTモデル、および3つのデコーダのみモデル(ChatGPT、Claude、Gemini)の性能を調査した。
その結果、ALBERT は他のモデルよりもはるかに優れた AssuEval データセットの仮定を特定するための最高の性能 (f1-score: 0.9584) を達成している(第2の最良の f1-score は Claude 3.5 Sonnet モデルによって達成された 0.8858 である)。
ChatGPT、Claude、Geminiは人気のあるモデルですが、低パフォーマンスのため、DLフレームワーク開発における仮定を特定するためにそれらを使用することは推奨しません。
仮定のための微調整ChatGPT、Claude、Gemini、その他の言語モデル(例えば、Llama3、Falcon、BLOOM)は、仮定の特定のために性能を改善する可能性がある。
関連論文リスト
- Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。