Fugu-MT 論文翻訳(概要): Generative Language Models Potential for Requirement Engineering Applications: Insights into Current Strengths and Limitations

論文の概要: Generative Language Models Potential for Requirement Engineering Applications: Insights into Current Strengths and Limitations

arxiv url: http://arxiv.org/abs/2412.00959v1
Date: Sun, 01 Dec 2024 20:20:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.273988
Title: Generative Language Models Potential for Requirement Engineering Applications: Insights into Current Strengths and Limitations
Title（参考訳）: 要求工学応用のための生成言語モデル:現状の強みと限界
Authors: Summra Saleem, Muhammad Nabeel Asim, Ludger Van Elst, Andreas Dengel,
Abstract要約: 本稿では,ChatGPT と Gemini の多種多様な要求工学応用への応用の可能性について検討する。両方の言語モデルのパフォーマンスを、既存のタスク固有の機械学習予測器と従来の言語モデルと比較する。我々の実験によると、GeminiはChatGPTよりも精密な迅速なエンジニアリングを必要としている。
参考スコア（独自算出の注目度）: 5.001689778344014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional language models have been extensively evaluated for software engineering domain, however the potential of ChatGPT and Gemini have not been fully explored. To fulfill this gap, the paper in hand presents a comprehensive case study to investigate the potential of both language models for development of diverse types of requirement engineering applications. It deeply explores impact of varying levels of expert knowledge prompts on the prediction accuracies of both language models. Across 4 different public benchmark datasets of requirement engineering tasks, it compares performance of both language models with existing task specific machine/deep learning predictors and traditional language models. Specifically, the paper utilizes 4 benchmark datasets; Pure (7,445 samples, requirements extraction),PROMISE (622 samples, requirements classification), REQuestA (300 question answer (QA) pairs) and Aerospace datasets (6347 words, requirements NER tagging). Our experiments reveal that, in comparison to ChatGPT, Gemini requires more careful prompt engineering to provide accurate predictions. Moreover, across requirement extraction benchmark dataset the state-of-the-art F1-score is 0.86 while ChatGPT and Gemini achieved 0.76 and 0.77,respectively. The State-of-the-art F1-score on requirements classification dataset is 0.96 and both language models 0.78. In name entity recognition (NER) task the state-of-the-art F1-score is 0.92 and ChatGPT managed to produce 0.36, and Gemini 0.25. Similarly, across question answering dataset the state-of-the-art F1-score is 0.90 and ChatGPT and Gemini managed to produce 0.91 and 0.88 respectively. Our experiments show that Gemini requires more precise prompt engineering than ChatGPT. Except for question-answering, both models under-perform compared to current state-of-the-art predictors across other tasks.
Abstract（参考訳）: 従来の言語モデルは、ソフトウェア工学の分野で広く評価されてきたが、ChatGPTとGeminiのポテンシャルは十分に調査されていない。このギャップを埋めるために,本論文では,多種多様な要求工学アプリケーションを開発するために,両言語モデルの可能性を検討するための包括的ケーススタディを提案する。異なるレベルの専門家知識が両方の言語モデルの予測精度に与える影響を深く調査する。要件エンジニアリングタスクの4つの公開ベンチマークデータセットで、両方の言語モデルのパフォーマンスを、既存のタスク固有の機械学習予測と従来の言語モデルと比較する。具体的には,Pure(7,445サンプル,要件抽出),PROMISE(622サンプル,要件分類),REQuestA(300質問回答(QA)ペア),Aerospace(6347ワード,要件NERタグ付け)の4つのベンチマークデータセットを利用する。我々の実験では、ChatGPTと比較して、Geminiは正確な予測を提供するために、より慎重なプロンプトエンジニアリングを必要としている。さらに、要求抽出ベンチマークデータセット全体で、最先端のF1スコアは0.86であり、ChatGPTとGeminiは0.76と0.77を達成した。要件分類データセットの最先端F1スコアは0.96であり、どちらの言語モデルも0.78である。名前のエンティティ認識(NER)タスクでは、最先端のF1スコアは0.92であり、ChatGPTは0.36、Gemini 0.25を生成することができた。同様に、質問応答データセット全体で、最先端のF1スコアは0.90であり、ChatGPTとGeminiはそれぞれ0.91と0.88を生成することができた。我々の実験によると、GeminiはChatGPTよりも精密な迅速なエンジニアリングを必要としている。問合せを除いて、どちらのモデルも、他のタスクにおける現在の最先端の予測器と比較して性能が低い。

関連論文リスト

Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文参考訳（メタデータ） (2025-05-02T12:31:43Z)
Is My Text in Your AI Model? Gradient-based Membership Inference Test applied to LLMs [14.618008816273784]
MINTは、与えられたデータが機械学習モデルのトレーニングに使用されたかどうかを決定する一般的なアプローチである。本研究は自然言語処理分野への応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-10T14:32:56Z)
TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文参考訳（メタデータ） (2024-04-19T11:38:08Z)
An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。 Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文参考訳（メタデータ） (2023-12-18T18:47:42Z)
Which AI Technique Is Better to Classify Requirements? An Experiment with SVM, LSTM, and ChatGPT [0.4588028371034408]
本稿では,要求分類のための2つのChatGPTモデルの実証評価を報告する。以上の結果から,全ての要件クラスに最適なテクニックは存在しないことが明らかとなった。少数ショット設定は、主にゼロショット結果が著しく低いシナリオで有用であることが判明した。
論文参考訳（メタデータ） (2023-11-20T05:55:05Z)
Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文参考訳（メタデータ） (2023-05-15T06:24:45Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
The GINCO Training Dataset for Web Genre Identification of Documents Out in the Wild [0.0]
データセットは、機械翻訳コンテンツ、エンコーディングエラー、ひとつのドキュメントに表示される複数のコンテンツなど、Webベースのデータに関連するさまざまな課題で構成されている。最初の機械学習実験では、(1)トランスフォーマー前のモデルでは0.22程度のマクロF1メトリクスで現象をモデル化することができず、(2)トランスフォーマーベースのモデルは0.58のスコアを獲得し、(2)マルチリンガルトランスフォーマーモデルは、標準NLPタスクのマルチリンガルモデルよりも優れていることが証明されたモノリンガルモデルと同様にタスク上でも動作することを示した。
論文参考訳（メタデータ） (2022-01-11T09:39:15Z)
NEMO: Frequentist Inference Approach to Constrained Linguistic Typology Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文参考訳（メタデータ） (2020-10-12T19:25:43Z)
FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings [2.362412515574206]
本稿では,スペイン語と英語の混在するソーシャルメディアデータを用いた感情分類手法を提案する。単言語モデルと多言語モデルの両方を標準微調整法を用いて検討する。 2段階の微調整により、ベースモデルよりも感情分類性能が向上するが、大規模多言語XLM-RoBERTaモデルではF1スコアが最適である。
論文参考訳（メタデータ） (2020-07-24T14:48:27Z)
TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文参考訳（メタデータ） (2020-04-07T18:00:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。