論文の概要: Empirical Evaluation of ChatGPT on Requirements Information Retrieval
Under Zero-Shot Setting
- arxiv url: http://arxiv.org/abs/2304.12562v2
- Date: Wed, 19 Jul 2023 08:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 17:25:54.773635
- Title: Empirical Evaluation of ChatGPT on Requirements Information Retrieval
Under Zero-Shot Setting
- Title(参考訳): ゼロショット設定時の要求情報検索におけるChatGPTの実証評価
- Authors: Jianzhang Zhang, Yiyang Chen, Nan Niu, Yinglin Wang, Chuang Liu
- Abstract要約: 要求情報検索タスクにおいてChatGPTの性能を実証的に評価する。
ゼロショット設定では、ChatGPTが要求情報を検索する有望な能力を示す。
- 参考スコア(独自算出の注目度): 12.733403458944972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, various illustrative examples have shown the impressive ability of
generative large language models (LLMs) to perform NLP related tasks. ChatGPT
undoubtedly is the most representative model. We empirically evaluate ChatGPT's
performance on requirements information retrieval (IR) tasks to derive insights
into designing or developing more effective requirements retrieval methods or
tools based on generative LLMs. We design an evaluation framework considering
four different combinations of two popular IR tasks and two common artifact
types. Under zero-shot setting, evaluation results reveal ChatGPT's promising
ability to retrieve requirements relevant information (high recall) and limited
ability to retrieve more specific requirements information (low precision). Our
evaluation of ChatGPT on requirements IR under zero-shot setting provides
preliminary evidence for designing or developing more effective requirements IR
methods or tools based on LLMs.
- Abstract(参考訳): 近年,NLP関連のタスクを生成型大規模言語モデル(LLM)で実行できることが,様々な例で示されている。
ChatGPTは間違いなく最も代表的なモデルだ。
我々は,要求情報検索(ir)タスクにおけるchatgptの性能を実証的に評価し,より効果的な要件検索手法や生成的llmに基づくツールの設計や開発への洞察を得る。
2つの一般的なIRタスクと2つの共通アーティファクトの4つの組み合わせを考慮した評価フレームワークを設計する。
ゼロショット設定では、ChatGPTが要求情報(高いリコール)を検索できる有望な能力と、より具体的な要求情報(低い精度)を検索できる限られた能力を示す。
ゼロショット設定下での要求IRに対するChatGPTの評価は、LCMに基づくより効果的な要求IRメソッドやツールの設計や開発のための予備的な証拠となる。
関連論文リスト
- RepEval: Effective Text Evaluation with LLM Representation [54.07909112633993]
評価のためにLLM表現の投影を利用した最初の計量であるRepEvalを紹介する。
RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。
3つのタスクから得られた10個のデータセットの結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Model Generation from Requirements with LLMs: an Exploratory Study [9.114284818139069]
本稿では,NL要求から特定のモデル,すなわちシーケンス図を生成するChatGPTの能力について検討する。
本稿では,ChatGPTが生成した28種類の要求文書と異なるドメインのシーケンス図について検討する。
以上の結果から, モデルが標準に適合し, 合理的な理解可能性を示す一方で, 要求条件に対する完全性や正当性は, しばしば課題となることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T15:07:25Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - GPT4Rec: A Generative Framework for Personalized Recommendation and User
Interests Interpretation [8.293646972329581]
GPT4Recは、検索エンジンにインスパイアされた、新しく柔軟な生成フレームワークである。
まず、ユーザの履歴にある項目のタイトルに関する仮説的な"検索クエリ"を生成し、これらのクエリを検索することで推奨項目を検索する。
我々のフレームワークは、2つの公開データセット上のRecall@Kにおいて、最先端のメソッドを75.7%と22.2%でパフォーマンスします。
論文 参考訳(メタデータ) (2023-04-08T00:30:08Z) - Extended High Utility Pattern Mining: An Answer Set Programming Based
Framework and Applications [0.0]
ASPのようなルールベースの言語は、パターンユーティリティを評価するためのユーザが提供する基準を指定するのに適しているようだ。
本稿では,従来の文献では考慮されていない実用基準の新たなクラスを実現するためのフレームワークを提案する。
新型コロナウイルス患者のICU入院を予測するための革新的な方法の定義のために,ビルディングブロックとして活用する。
論文 参考訳(メタデータ) (2023-03-23T11:42:57Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。