論文の概要: Empirical Evaluation of ChatGPT on Requirements Information Retrieval
Under Zero-Shot Setting
- arxiv url: http://arxiv.org/abs/2304.12562v2
- Date: Wed, 19 Jul 2023 08:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 17:25:54.773635
- Title: Empirical Evaluation of ChatGPT on Requirements Information Retrieval
Under Zero-Shot Setting
- Title(参考訳): ゼロショット設定時の要求情報検索におけるChatGPTの実証評価
- Authors: Jianzhang Zhang, Yiyang Chen, Nan Niu, Yinglin Wang, Chuang Liu
- Abstract要約: 要求情報検索タスクにおいてChatGPTの性能を実証的に評価する。
ゼロショット設定では、ChatGPTが要求情報を検索する有望な能力を示す。
- 参考スコア(独自算出の注目度): 12.733403458944972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, various illustrative examples have shown the impressive ability of
generative large language models (LLMs) to perform NLP related tasks. ChatGPT
undoubtedly is the most representative model. We empirically evaluate ChatGPT's
performance on requirements information retrieval (IR) tasks to derive insights
into designing or developing more effective requirements retrieval methods or
tools based on generative LLMs. We design an evaluation framework considering
four different combinations of two popular IR tasks and two common artifact
types. Under zero-shot setting, evaluation results reveal ChatGPT's promising
ability to retrieve requirements relevant information (high recall) and limited
ability to retrieve more specific requirements information (low precision). Our
evaluation of ChatGPT on requirements IR under zero-shot setting provides
preliminary evidence for designing or developing more effective requirements IR
methods or tools based on LLMs.
- Abstract(参考訳): 近年,NLP関連のタスクを生成型大規模言語モデル(LLM)で実行できることが,様々な例で示されている。
ChatGPTは間違いなく最も代表的なモデルだ。
我々は,要求情報検索(ir)タスクにおけるchatgptの性能を実証的に評価し,より効果的な要件検索手法や生成的llmに基づくツールの設計や開発への洞察を得る。
2つの一般的なIRタスクと2つの共通アーティファクトの4つの組み合わせを考慮した評価フレームワークを設計する。
ゼロショット設定では、ChatGPTが要求情報(高いリコール)を検索できる有望な能力と、より具体的な要求情報(低い精度)を検索できる限られた能力を示す。
ゼロショット設定下での要求IRに対するChatGPTの評価は、LCMに基づくより効果的な要求IRメソッドやツールの設計や開発のための予備的な証拠となる。
関連論文リスト
- Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [21.079199282600907]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。
この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文 参考訳(メタデータ) (2024-11-26T08:21:24Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - AI based Multiagent Approach for Requirements Elicitation and Analysis [3.9422957660677476]
本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。
我々は,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件を分析する実験を行った。
予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。
論文 参考訳(メタデータ) (2024-08-18T07:23:12Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Extended High Utility Pattern Mining: An Answer Set Programming Based
Framework and Applications [0.0]
ASPのようなルールベースの言語は、パターンユーティリティを評価するためのユーザが提供する基準を指定するのに適しているようだ。
本稿では,従来の文献では考慮されていない実用基準の新たなクラスを実現するためのフレームワークを提案する。
新型コロナウイルス患者のICU入院を予測するための革新的な方法の定義のために,ビルディングブロックとして活用する。
論文 参考訳(メタデータ) (2023-03-23T11:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。