論文の概要: Requirements Satisfiability with In-Context Learning
- arxiv url: http://arxiv.org/abs/2404.12576v1
- Date: Fri, 19 Apr 2024 01:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:34:43.268435
- Title: Requirements Satisfiability with In-Context Learning
- Title(参考訳): インテクスト学習における要求満足度
- Authors: Sarah Santos, Travis Breaux, Thomas Norton, Sara Haghighi, Sepideh Ghanavati,
- Abstract要約: インコンテキスト学習(ICL)と呼ばれる推論時にタスクを学習できる言語モデルは、自然言語タスクの公約が増加することを示している。
本稿では,システム仕様と関連する知識によって要求がどのように満たされるかを記述した満足度議論の設計評価にICLを適用した。
このアプローチは、拡張生成、プロンプトチューニング、チェーン・オブ・シークレットプロンプトを含む3つのプロンプトデザインパターンに基づいて構築される。
- 参考スコア(独自算出の注目度): 1.747623282473278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models that can learn a task at inference time, called in-context learning (ICL), show increasing promise in natural language inference tasks. In ICL, a model user constructs a prompt to describe a task with a natural language instruction and zero or more examples, called demonstrations. The prompt is then input to the language model to generate a completion. In this paper, we apply ICL to the design and evaluation of satisfaction arguments, which describe how a requirement is satisfied by a system specification and associated domain knowledge. The approach builds on three prompt design patterns, including augmented generation, prompt tuning, and chain-of-thought prompting, and is evaluated on a privacy problem to check whether a mobile app scenario and associated design description satisfies eight consent requirements from the EU General Data Protection Regulation (GDPR). The overall results show that GPT-4 can be used to verify requirements satisfaction with 96.7% accuracy and dissatisfaction with 93.2% accuracy. Inverting the requirement improves verification of dissatisfaction to 97.2%. Chain-of-thought prompting improves overall GPT-3.5 performance by 9.0% accuracy. We discuss the trade-offs among templates, models and prompt strategies and provide a detailed analysis of the generated specifications to inform how the approach can be applied in practice.
- Abstract(参考訳): In-context Learning (ICL)と呼ばれる、推論時にタスクを学習できる言語モデルは、自然言語推論タスクの公約が増加することを示している。
ICLでは、モデルユーザーが自然言語命令とデモと呼ばれるゼロ以上の例でタスクを記述するプロンプトを構築する。
次にプロンプトが言語モデルに入力され、完了を生成する。
本稿では、システム仕様と関連するドメイン知識によって要求がどのように満たされるかを記述した満足度引数の設計と評価にICLを適用した。
このアプローチは、拡張生成、プロンプトチューニング、チェーン・オブ・シークレットプロンプトを含む3つのプロンプトデザインパターンに基づいて構築され、プライバシー問題で評価され、モバイルアプリシナリオと関連する設計記述がEU一般データ保護規則(GDPR)の8つの同意要件を満たすかどうかを確認する。
その結果、GPT-4は96.7%の精度で要求満足度、93.2%の精度で満足度を検証できることがわかった。
この要件を覆すことで、不満の検証は97.2%に改善される。
チェーン・オブ・シグネリングはGPT-3.5全体の性能を9.0%向上させる。
テンプレート,モデル,プロンプト戦略間のトレードオフについて議論し,生成した仕様の詳細な分析を行い,実際にどのようにアプローチを適用するかを示す。
関連論文リスト
- Establishing Knowledge Preference in Language Models [80.70632813935644]
言語モデルは事前学習を通じて大量の事実知識を符号化することが知られている。
このような知識はユーザーからの要求に応えるには不十分かもしれない。
進行中のイベントに関する質問に答える場合には、最新のニュース記事を使って回答を更新する必要がある。
ある事実がモデルで編集されると、更新された事実はモデルによって学習されたすべての事前知識をオーバーライドする。
論文 参考訳(メタデータ) (2024-07-17T23:16:11Z) - Model Generation with LLMs: From Requirements to UML Sequence Diagrams [9.114284818139069]
本稿では,NL要求から特定のモデル,すなわちシーケンス図を生成するChatGPTの能力について検討する。
本稿では,ChatGPTが生成した28種類の要求文書と異なるドメインのシーケンス図について検討する。
以上の結果から, モデルが標準に適合し, 合理的な理解可能性を示す一方で, 要求条件に対する完全性や正当性は, しばしば課題となることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T15:07:25Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Instruction Induction: From Few Examples to Natural Language Task
Descriptions [55.139554327372934]
実例に適合する自然言語命令を生成するように促すことで,言語モデルがいくつかの実演から基礎となるタスクを明示的に推論できることを示す。
InstructGPTは65.7%の人的パフォーマンスを達成するが、オリジナルのGPT-3モデルは9.8%にしか達しない。
論文 参考訳(メタデータ) (2022-05-22T09:22:37Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - Meta-tuning Language Models to Answer Prompts Better [35.71265221884353]
GPT-3のような大規模事前訓練言語モデルは、ゼロショット分類(ZSC)を実行する驚くべき能力を獲得した
提案するメタチューニングは,応答プロンプトに特化するようにモデルをトレーニングするが,未知のタスクに一般化する。
メタチューニングの後、私たちのモデルは、見えないタスクのほとんどのラベルで同じサイズのQAモデルよりも優れています。
論文 参考訳(メタデータ) (2021-04-10T02:57:22Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。