論文の概要: An exploratory study on automatic identification of assumptions in the
development of deep learning frameworks
- arxiv url: http://arxiv.org/abs/2401.03653v1
- Date: Mon, 8 Jan 2024 03:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:42:57.539684
- Title: An exploratory study on automatic identification of assumptions in the
development of deep learning frameworks
- Title(参考訳): ディープラーニングフレームワーク開発における仮定の自動識別に関する探索的研究
- Authors: Chen Yanga, Peng Liang, Zinan Ma
- Abstract要約: 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。
手動で仮定を識別する問題を克服するため、GitHub上のリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築しました。
AlBERTは、AssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する。
- 参考スコア(独自算出の注目度): 1.5799040499714678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stakeholders constantly make assumptions in the development of deep learning
(DL) frameworks. These assumptions are related to various types of software
artifacts (e.g., requirements, design decisions, and technical debt) and can
turn out to be invalid, leading to system failures. Existing approaches and
tools for assumption management usually depend on manual identification of
assumptions. However, assumptions are scattered in various sources (e.g., code
comments, commits, pull requests, and issues) of DL framework development, and
manually identifying assumptions has high costs (e.g., time and resources). To
overcome the issues of manually identifying assumptions in DL framework
development, we constructed a new and largest dataset (i.e., AssuEval) of
assumptions collected from the TensorFlow and Keras repositories on GitHub;
explored the performance of seven traditional machine learning models (e.g.,
Support Vector Machine, Classification and Regression Trees), a popular DL
model (i.e., ALBERT), and a large language model (i.e., ChatGPT) of identifying
assumptions on the AssuEval dataset. The experiment results show that: ALBERT
achieves the best performance (f1-score: 0.9584) of identifying assumptions on
the AssuEval dataset, which is much better than the other models (the 2nd best
f1-score is 0.6211, achieved by ChatGPT). Though ChatGPT is the most popular
large language model, we do not recommend using it to identify assumptions in
DL framework development because of its low performance on the task.
Fine-tuning ChatGPT specifically for assumption identification could improve
the performance. This study provides researchers with the largest dataset of
assumptions for further research (e.g., assumption classification, evaluation,
and reasoning) and helps practitioners better understand assumptions and how to
manage them in their projects.
- Abstract(参考訳): ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。
これらの仮定は、様々な種類のソフトウェアアーティファクト(要求、設計決定、技術的負債など)と関連付けられており、システム障害につながる可能性がある。
既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。
しかし、仮定はdlフレームワーク開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に分散しており、手動で仮定を特定することは高いコスト(例えば、時間とリソース)を持つ。
DLフレームワーク開発における仮定を手動で特定する問題を克服するため、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築し、AssuEvalデータセット上の仮定を特定するための7つの伝統的な機械学習モデル(例えば、サポートベクタマシン、分類と回帰ツリー)、人気のあるDLモデル(ALBERT)、大きな言語モデル(例えば、ChatGPT)のパフォーマンスを調査した。
ALBERTは、他のモデルよりもはるかに優れたAssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する(第2の最良のf1スコアは、ChatGPTによって達成された0.6211)。
ChatGPTは、最もポピュラーな大規模言語モデルであるが、タスクの性能が低いため、DLフレームワーク開発における仮定を特定するためにの使用は推奨しない。
仮定識別のための微調整ChatGPTは性能を向上する可能性がある。
この研究では、さらなる研究のための仮定データセット(仮定分類、評価、推論など)を研究者に提供し、実践者が仮定の理解を深め、プロジェクトでそれらを管理する方法を支援する。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。
我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。
このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-27T06:58:52Z) - Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - A New Learning Paradigm for Foundation Model-based Remote Sensing Change
Detection [54.01158175996638]
変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。
本稿では,基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。
論文 参考訳(メタデータ) (2023-12-02T15:57:17Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。