論文の概要: Leveraging Transformer-based Language Models to Automate Requirements
Satisfaction Assessment
- arxiv url: http://arxiv.org/abs/2312.04463v1
- Date: Thu, 7 Dec 2023 17:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:58:02.696110
- Title: Leveraging Transformer-based Language Models to Automate Requirements
Satisfaction Assessment
- Title(参考訳): トランスフォーマーに基づく言語モデルを活用した要求満足度自動評価
- Authors: Amrit Poudel, Jinfeng Lin, Jane Cleland-Huang
- Abstract要約: 要件満足度評価(Requirements Satisfaction Assessment, RSA)は、単一の要件に関連付けられた設計要素のセットがその要件について十分なカバレッジを提供するかどうかを評価する。
以前の研究では、要求と設計要素をチャンクに分解するために、基本的な情報検索(IR)モデルを使用していた。
我々は、自然言語処理の最近の進歩を活用して、より正確な結果を提供する。
- 参考スコア(独自算出の注目度): 46.23197713410196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Requirements Satisfaction Assessment (RSA) evaluates whether the set of
design elements linked to a single requirement provide sufficient coverage of
that requirement -- typically meaning that all concepts in the requirement are
addressed by at least one of the design elements. RSA is an important software
engineering activity for systems with any form of hierarchical decomposition --
especially safety or mission critical ones. In previous studies, researchers
used basic Information Retrieval (IR) models to decompose requirements and
design elements into chunks, and then evaluated the extent to which chunks of
design elements covered all chunks in the requirement. However, results had low
accuracy because many critical concepts that extend across the entirety of the
sentence were not well represented when the sentence was parsed into
independent chunks. In this paper we leverage recent advances in natural
language processing to deliver significantly more accurate results. We propose
two major architectures: Satisfaction BERT (Sat-BERT), and Dual-Satisfaction
BERT (DSat-BERT), along with their multitask learning variants to improve
satisfaction assessments. We perform RSA on five different datasets and compare
results from our variants against the chunk-based legacy approach. All
BERT-based models significantly outperformed the legacy baseline, and Sat-BERT
delivered the best results returning an average improvement of 124.75% in Mean
Average Precision.
- Abstract(参考訳): 要件満足度評価(Requirements Satisfaction Assessment、RSA)は、単一の要件に関連付けられた設計要素のセットが、その要件の十分なカバレッジを提供するかどうかを評価する。
rsaは階層的分解(特に安全性やミッションクリティカル)のあるシステムにとって重要なソフトウェアエンジニアリング活動である。
これまでの研究では、基本的な情報検索モデルを使用して、要求と設計要素をチャンクに分解し、設計要素のチャンクが要求のすべてのチャンクをカバーする範囲を評価した。
しかし, 文全体を横断する批判的概念の多くは, 文を独立したチャンクに解析する際にはうまく表現されなかったため, 精度は低かった。
本稿では、自然言語処理の最近の進歩を活用して、より正確な結果を得る。
本研究では、満足度評価を改善するために、満足度 BERT (Sat-BERT) とデュアル満足度 BERT (DSat-BERT) の2つの主要なアーキテクチャを提案する。
5つの異なるデータセットでrsaを行い、チャンクベースのレガシーアプローチと比較します。
すべてのBERTベースのモデルはレガシーベースラインを著しく上回り、Sat-BERTは平均平均精度を124.75%改善した。
関連論文リスト
- Towards Establishing Guaranteed Error for Learned Database Operations [5.14420675727793]
そこで本研究では,鍵データベース操作において,所望の精度を達成するために必要なモデルサイズについて,最初の下限を提示する。
私たちの結果は、データベース操作の実行における平均値と最悪のケースエラーに必要なモデルサイズに結びついています。
私たちの確立した保証は、学習したモデルを現実世界のシステムに広く導入し、統合するための道を開くものです。
論文 参考訳(メタデータ) (2024-11-09T17:53:18Z) - The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests [0.6249768559720121]
我々は,新しいArithmetic Constraint-Satisfaction(ACS)ベンチマークデータセットを開発し,リリースする。
このデータセットは、対応する制約を持つ複雑なユーザリクエスト、エージェント応答、応答における各制約の満足度を示すヒューマンラベルで構成されている。
ほとんどのモデルにはまだ改善のための重要なヘッドルームがあることを示し、エラーは主に推論の問題に起因する。
論文 参考訳(メタデータ) (2024-09-22T09:27:42Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Learning to Decompose: Hypothetical Question Decomposition Based on
Comparable Texts [65.84370471189676]
本研究は,分解型変圧器の大規模中間訓練について,比較テキストから遠ざかって検討する。
このような中間的事前学習により、多様なタスクのための堅牢な分解ベースモデルの開発がより実現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-30T15:38:03Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。