論文の概要: A Preliminary Evaluation of ChatGPT in Requirements Information
Retrieval
- arxiv url: http://arxiv.org/abs/2304.12562v1
- Date: Tue, 25 Apr 2023 04:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:58:34.205856
- Title: A Preliminary Evaluation of ChatGPT in Requirements Information
Retrieval
- Title(参考訳): 要求情報検索におけるChatGPTの予備評価
- Authors: Jianzhang Zhang, Yiyang Chen, Nan Niu, Chuang Liu
- Abstract要約: 要求分析タスクにおいてChatGPTがどのように機能するかを実証的に評価する。
定量的な結果から、ChatGPTはゼロショット設定ですべてのデータセットで同等またはそれ以上のFbeta$値を達成している。
- 参考スコア(独自算出の注目度): 7.7547237862921135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Recently, many illustrative examples have shown ChatGPT's impressive
ability to perform programming tasks and answer general domain questions.
Objective: We empirically evaluate how ChatGPT performs on requirements
analysis tasks to derive insights into how generative large language model,
represented by ChatGPT, influence the research and practice of natural language
processing for requirements engineering.
Method: We design an evaluation pipeline including two common requirements
information retrieval tasks, four public datasets involving two typical
requirements artifacts, querying ChatGPT with fixed task prompts, and
quantitative and qualitative results analysis.
Results: Quantitative results show that ChatGPT achieves comparable or better
$F\beta$ values in all datasets under a zero-shot setting. Qualitative analysis
further illustrates ChatGPT's powerful natural language processing ability and
limited requirements engineering domain knowledge.
Conclusion: The evaluation results demonstrate ChatGPT' impressive ability to
retrieve requirements information from different types artifacts involving
multiple languages under a zero-shot setting. It is worthy for the research and
industry communities to study generative large language model based
requirements retrieval models and to develop corresponding tools.
- Abstract(参考訳): コンテキスト: 最近では、ChatGPTがプログラミングタスクを実行し、一般的なドメインの質問に答える素晴らしい能力を示しています。
目的:我々は,ChatGPTが要求分析タスクでどのように機能するかを実証的に評価し,ChatGPTが表現する大規模言語モデルの生成が,要求工学における自然言語処理の研究と実践に与える影響について考察する。
方法:2つの共通要件情報検索タスク,2つの典型的な要件アーチファクトを含む4つの公開データセット,ChatGPTとタスクプロンプトのクエリ,定量的および定性的な結果分析を含む評価パイプラインを設計する。
結果: 定量的な結果から、ChatGPTはゼロショット設定ですべてのデータセットで同等またはそれ以上のF\beta$値を達成する。
定性的分析は、ChatGPTの強力な自然言語処理能力と限定的な要求工学ドメイン知識を示している。
結論: 評価結果から,chatgptはゼロショット設定下で複数の言語を含む異なるタイプのアーティファクトから要求情報を取得することができる。
大規模言語モデルに基づく要求検索モデルの研究と,それに対応するツールの開発は,研究コミュニティや産業コミュニティにとって重要である。
関連論文リスト
- Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [21.079199282600907]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。
この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文 参考訳(メタデータ) (2024-11-26T08:21:24Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - AI based Multiagent Approach for Requirements Elicitation and Analysis [3.9422957660677476]
本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。
我々は,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件を分析する実験を行った。
予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。
論文 参考訳(メタデータ) (2024-08-18T07:23:12Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Extended High Utility Pattern Mining: An Answer Set Programming Based
Framework and Applications [0.0]
ASPのようなルールベースの言語は、パターンユーティリティを評価するためのユーザが提供する基準を指定するのに適しているようだ。
本稿では,従来の文献では考慮されていない実用基準の新たなクラスを実現するためのフレームワークを提案する。
新型コロナウイルス患者のICU入院を予測するための革新的な方法の定義のために,ビルディングブロックとして活用する。
論文 参考訳(メタデータ) (2023-03-23T11:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。