論文の概要: A Preliminary Evaluation of ChatGPT in Requirements Information
Retrieval
- arxiv url: http://arxiv.org/abs/2304.12562v1
- Date: Tue, 25 Apr 2023 04:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:58:34.205856
- Title: A Preliminary Evaluation of ChatGPT in Requirements Information
Retrieval
- Title(参考訳): 要求情報検索におけるChatGPTの予備評価
- Authors: Jianzhang Zhang, Yiyang Chen, Nan Niu, Chuang Liu
- Abstract要約: 要求分析タスクにおいてChatGPTがどのように機能するかを実証的に評価する。
定量的な結果から、ChatGPTはゼロショット設定ですべてのデータセットで同等またはそれ以上のFbeta$値を達成している。
- 参考スコア(独自算出の注目度): 7.7547237862921135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Recently, many illustrative examples have shown ChatGPT's impressive
ability to perform programming tasks and answer general domain questions.
Objective: We empirically evaluate how ChatGPT performs on requirements
analysis tasks to derive insights into how generative large language model,
represented by ChatGPT, influence the research and practice of natural language
processing for requirements engineering.
Method: We design an evaluation pipeline including two common requirements
information retrieval tasks, four public datasets involving two typical
requirements artifacts, querying ChatGPT with fixed task prompts, and
quantitative and qualitative results analysis.
Results: Quantitative results show that ChatGPT achieves comparable or better
$F\beta$ values in all datasets under a zero-shot setting. Qualitative analysis
further illustrates ChatGPT's powerful natural language processing ability and
limited requirements engineering domain knowledge.
Conclusion: The evaluation results demonstrate ChatGPT' impressive ability to
retrieve requirements information from different types artifacts involving
multiple languages under a zero-shot setting. It is worthy for the research and
industry communities to study generative large language model based
requirements retrieval models and to develop corresponding tools.
- Abstract(参考訳): コンテキスト: 最近では、ChatGPTがプログラミングタスクを実行し、一般的なドメインの質問に答える素晴らしい能力を示しています。
目的:我々は,ChatGPTが要求分析タスクでどのように機能するかを実証的に評価し,ChatGPTが表現する大規模言語モデルの生成が,要求工学における自然言語処理の研究と実践に与える影響について考察する。
方法:2つの共通要件情報検索タスク,2つの典型的な要件アーチファクトを含む4つの公開データセット,ChatGPTとタスクプロンプトのクエリ,定量的および定性的な結果分析を含む評価パイプラインを設計する。
結果: 定量的な結果から、ChatGPTはゼロショット設定ですべてのデータセットで同等またはそれ以上のF\beta$値を達成する。
定性的分析は、ChatGPTの強力な自然言語処理能力と限定的な要求工学ドメイン知識を示している。
結論: 評価結果から,chatgptはゼロショット設定下で複数の言語を含む異なるタイプのアーティファクトから要求情報を取得することができる。
大規模言語モデルに基づく要求検索モデルの研究と,それに対応するツールの開発は,研究コミュニティや産業コミュニティにとって重要である。
関連論文リスト
- RepEval: Effective Text Evaluation with LLM Representation [54.07909112633993]
評価のためにLLM表現の投影を利用した最初の計量であるRepEvalを紹介する。
RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。
3つのタスクから得られた10個のデータセットの結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Model Generation from Requirements with LLMs: an Exploratory Study [9.114284818139069]
本稿では,NL要求から特定のモデル,すなわちシーケンス図を生成するChatGPTの能力について検討する。
本稿では,ChatGPTが生成した28種類の要求文書と異なるドメインのシーケンス図について検討する。
以上の結果から, モデルが標準に適合し, 合理的な理解可能性を示す一方で, 要求条件に対する完全性や正当性は, しばしば課題となることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T15:07:25Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - GPT4Rec: A Generative Framework for Personalized Recommendation and User
Interests Interpretation [8.293646972329581]
GPT4Recは、検索エンジンにインスパイアされた、新しく柔軟な生成フレームワークである。
まず、ユーザの履歴にある項目のタイトルに関する仮説的な"検索クエリ"を生成し、これらのクエリを検索することで推奨項目を検索する。
我々のフレームワークは、2つの公開データセット上のRecall@Kにおいて、最先端のメソッドを75.7%と22.2%でパフォーマンスします。
論文 参考訳(メタデータ) (2023-04-08T00:30:08Z) - Extended High Utility Pattern Mining: An Answer Set Programming Based
Framework and Applications [0.0]
ASPのようなルールベースの言語は、パターンユーティリティを評価するためのユーザが提供する基準を指定するのに適しているようだ。
本稿では,従来の文献では考慮されていない実用基準の新たなクラスを実現するためのフレームワークを提案する。
新型コロナウイルス患者のICU入院を予測するための革新的な方法の定義のために,ビルディングブロックとして活用する。
論文 参考訳(メタデータ) (2023-03-23T11:42:57Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。