論文の概要: Detecting Requirements Smells With Deep Learning: Experiences,
Challenges and Future Work
- arxiv url: http://arxiv.org/abs/2108.03087v1
- Date: Fri, 6 Aug 2021 12:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:23:40.405319
- Title: Detecting Requirements Smells With Deep Learning: Experiences,
Challenges and Future Work
- Title(参考訳): ディープラーニングによる要件の検出 - 経験,課題,今後の課題
- Authors: Mohammad Kasra Habib, Stefan Wagner, Daniel Graziotin
- Abstract要約: 本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。
現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
- 参考スコア(独自算出の注目度): 9.44316959798363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Requirements Engineering (RE) is the initial step towards building a software
system. The success or failure of a software project is firmly tied to this
phase, based on communication among stakeholders using natural language. The
problem with natural language is that it can easily lead to different
understandings if it is not expressed precisely by the stakeholders involved,
which results in building a product different from the expected one. Previous
work proposed to enhance the quality of the software requirements detecting
language errors based on ISO 29148 requirements language criteria. The existing
solutions apply classical Natural Language Processing (NLP) to detect them. NLP
has some limitations, such as domain dependability which results in poor
generalization capability. Therefore, this work aims to improve the previous
work by creating a manually labeled dataset and using ensemble learning, Deep
Learning (DL), and techniques such as word embeddings and transfer learning to
overcome the generalization problem that is tied with classical NLP and improve
precision and recall metrics using a manually labeled dataset. The current
findings show that the dataset is unbalanced and which class examples should be
added more. It is tempting to train algorithms even if the dataset is not
considerably representative. Whence, the results show that models are
overfitting; in Machine Learning this issue is solved by adding more instances
to the dataset, improving label quality, removing noise, and reducing the
learning algorithms complexity, which is planned for this research.
- Abstract(参考訳): 要件工学(RE)は、ソフトウェアシステムを構築するための最初のステップです。
ソフトウェアプロジェクトの成功や失敗は、自然言語を使用するステークホルダ間のコミュニケーションに基づいて、このフェーズにしっかりと結びついています。
自然言語の問題は、関係する利害関係者によって正確に表現されていない場合、それが容易に異なる理解を導き、結果として期待するものと異なる製品を構築することである。
従来,ISO 29148の要件言語基準に基づいて,言語エラーを検出するソフトウェア要件の品質向上が提案されていた。
既存のソリューションは、古典自然言語処理(NLP)を用いて検出する。
NLPには、一般化能力の低下をもたらす領域依存性など、いくつかの制限がある。
そこで本研究は,手作業によるラベル付きデータセットの作成とアンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて,従来のNLPと結びついた一般化問題を克服し,手作業によるラベル付きデータセットによる精度向上とメトリクスのリコールを目標とする。
現在の調査結果は、データセットが不均衡であり、どのクラスの例を追加すべきかを示している。
たとえデータセットがかなり代表的でなくても、アルゴリズムを訓練するのは魅力的です。
機械学習では、この問題はデータセットにより多くのインスタンスを追加し、ラベルの品質を改善し、ノイズを除去し、この研究のために計画されている学習アルゴリズムの複雑さを減らすことで解決される。
関連論文リスト
- MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Deep Sequence Models for Text Classification Tasks [0.007329200485567826]
自然言語処理(NLP)は、人間の多様で複雑な言語を理解するために機械を装備している。
一般的なテキスト分類アプリケーションには、情報検索、ニューストピックのモデリング、テーマ抽出、感情分析、スパム検出が含まれる。
RNN、GRU、LSTMといったシーケンスモデルは、長距離依存性を持つタスクのブレークスルーである。
その結果、ほとんどのモデルでは80%と94%の範囲で性能が向上した。
論文 参考訳(メタデータ) (2022-07-18T18:47:18Z) - LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning
Tasks [22.274913349275817]
アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。
モデルアーキテクチャや損失関数を変更することなく、非言語ダウンストリームタスクを解決するために、Language-Interfaced Fine-Tuning (LIFT)を提案する。
LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インターフェースに依存している。
論文 参考訳(メタデータ) (2022-06-14T02:41:41Z) - Communication-Efficient Robust Federated Learning with Noisy Labels [144.31995882209932]
フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。
FLにおける雑音ラベルの効果を緩和する学習に基づく再重み付け手法を提案する。
提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-11T16:21:17Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。