論文の概要: An exploratory study on automatic identification of assumptions in the
development of deep learning frameworks
- arxiv url: http://arxiv.org/abs/2401.03653v2
- Date: Wed, 10 Jan 2024 00:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 11:46:28.772604
- Title: An exploratory study on automatic identification of assumptions in the
development of deep learning frameworks
- Title(参考訳): ディープラーニングフレームワーク開発における仮定の自動識別に関する探索的研究
- Authors: Chen Yang, Peng Liang, Zinan Ma
- Abstract要約: 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。
手動で仮定を識別する問題を克服するため、GitHub上のリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築しました。
AlBERTは、AssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する。
- 参考スコア(独自算出の注目度): 3.8858976837255303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stakeholders constantly make assumptions in the development of deep learning
(DL) frameworks. These assumptions are related to various types of software
artifacts (e.g., requirements, design decisions, and technical debt) and can
turn out to be invalid, leading to system failures. Existing approaches and
tools for assumption management usually depend on manual identification of
assumptions. However, assumptions are scattered in various sources (e.g., code
comments, commits, pull requests, and issues) of DL framework development, and
manually identifying assumptions has high costs (e.g., time and resources). To
overcome the issues of manually identifying assumptions in DL framework
development, we constructed a new and largest dataset (i.e., AssuEval) of
assumptions collected from the TensorFlow and Keras repositories on GitHub;
explored the performance of seven traditional machine learning models (e.g.,
Support Vector Machine, Classification and Regression Trees), a popular DL
model (i.e., ALBERT), and a large language model (i.e., ChatGPT) of identifying
assumptions on the AssuEval dataset. The experiment results show that: ALBERT
achieves the best performance (f1-score: 0.9584) of identifying assumptions on
the AssuEval dataset, which is much better than the other models (the 2nd best
f1-score is 0.6211, achieved by ChatGPT). Though ChatGPT is the most popular
large language model, we do not recommend using it to identify assumptions in
DL framework development because of its low performance on the task.
Fine-tuning ChatGPT specifically for assumption identification could improve
the performance. This study provides researchers with the largest dataset of
assumptions for further research (e.g., assumption classification, evaluation,
and reasoning) and helps practitioners better understand assumptions and how to
manage them in their projects.
- Abstract(参考訳): ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。
これらの仮定は、様々な種類のソフトウェアアーティファクト(要求、設計決定、技術的負債など)と関連付けられており、システム障害につながる可能性がある。
既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。
しかし、仮定はdlフレームワーク開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に分散しており、手動で仮定を特定することは高いコスト(例えば、時間とリソース)を持つ。
DLフレームワーク開発における仮定を手動で特定する問題を克服するため、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築し、AssuEvalデータセット上の仮定を特定するための7つの伝統的な機械学習モデル(例えば、サポートベクタマシン、分類と回帰ツリー)、人気のあるDLモデル(ALBERT)、大きな言語モデル(例えば、ChatGPT)のパフォーマンスを調査した。
ALBERTは、他のモデルよりもはるかに優れたAssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する(第2の最良のf1スコアは、ChatGPTによって達成された0.6211)。
ChatGPTは、最もポピュラーな大規模言語モデルであるが、タスクの性能が低いため、DLフレームワーク開発における仮定を特定するためにの使用は推奨しない。
仮定識別のための微調整ChatGPTは性能を向上する可能性がある。
この研究では、さらなる研究のための仮定データセット(仮定分類、評価、推論など)を研究者に提供し、実践者が仮定の理解を深め、プロジェクトでそれらを管理する方法を支援する。
関連論文リスト
- Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。