論文の概要: Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification
- arxiv url: http://arxiv.org/abs/2303.07142v2
- Date: Tue, 14 Mar 2023 17:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 11:10:46.559201
- Title: Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification
- Title(参考訳): 職場における大規模言語モデル:職種分類のためのプロンプト工学の事例研究
- Authors: Benjamin Clavi\'e and Alexandru Ciceu and Frederick Naylor and
Guillaume Souli\'e and Thomas Brightwell
- Abstract要約: 本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This case study investigates the task of job classification in a real-world
setting, where the goal is to determine whether an English-language job posting
is appropriate for a graduate or entry-level position. We explore multiple
approaches to text classification, including supervised approaches such as
traditional models like Support Vector Machines (SVMs) and state-of-the-art
deep learning methods such as DeBERTa. We compare them with Large Language
Models (LLMs) used in both few-shot and zero-shot classification settings. To
accomplish this task, we employ prompt engineering, a technique that involves
designing prompts to guide the LLMs towards the desired output. Specifically,
we evaluate the performance of two commercially available state-of-the-art
GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also
conduct a detailed analysis of the impact of different aspects of prompt
engineering on the model's performance. Our results show that, with a
well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all
other models, achieving a 6% increase in Precision@95% Recall compared to the
best supervised approach. Furthermore, we observe that the wording of the
prompt is a critical factor in eliciting the appropriate "reasoning" in the
model, and that seemingly minor aspects of the prompt significantly affect the
model's performance.
- Abstract(参考訳): 本研究は,英語の求職が大学・入学レベルの職位に適切かどうかを判断することを目的として,実世界の職種分類の課題について検討する。
本稿では,SVM(Support Vector Machines)のような従来のモデルやDeBERTaのような最先端のディープラーニング手法など,テキスト分類に対する複数のアプローチを検討する。
少数ショットとゼロショットの両方の分類設定で使用されるLarge Language Models (LLM)と比較する。
そこで我々は,所望の出力に向けてLLMを誘導するプロンプトを設計する手法であるプロンプトエンジニアリングを採用する。
具体的には,市販のgpt-3.5言語モデルtext-davinci-003とgpt-3.5-turboの性能評価を行った。
また,プロンプトエンジニアリングのさまざまな側面がモデルの性能に与える影響について詳細な分析を行った。
以上の結果から,ゼロショットgpt-3.5ターボ分類器は,最善の教師付きアプローチと比較して精度@95%のリコールを6%向上させた。
さらに,プロンプトの単語化はモデルにおける適切な「推論」を導き出す上で重要な要素であり,プロンプトの微妙な側面がモデルの性能に大きく影響していることが観察された。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Large Language Model Evaluation Via Multi AI Agents: Preliminary results [3.8066447473175304]
本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T10:06:04Z) - Which AI Technique Is Better to Classify Requirements? An Experiment with SVM, LSTM, and ChatGPT [0.4588028371034408]
本稿では,要求分類のための2つのChatGPTモデルの実証評価を報告する。
以上の結果から,全ての要件クラスに最適なテクニックは存在しないことが明らかとなった。
少数ショット設定は、主にゼロショット結果が著しく低いシナリオで有用であることが判明した。
論文 参考訳(メタデータ) (2023-11-20T05:55:05Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Attention is Not Always What You Need: Towards Efficient Classification
of Domain-Specific Text [1.1508304497344637]
階層構造に整理された数百のクラスを持つ大規模ITコーパスでは、階層構造における上位レベルのクラスの正確な分類が不可欠である。
ビジネスの世界では、高額なブラックボックスモデルよりも効率的で説明可能なMLモデルが好まれる。
PLMが広く使われているにもかかわらず、これらのモデルがドメイン固有のテキスト分類に使われている理由として、明確で明確な必要性が欠如している。
論文 参考訳(メタデータ) (2023-03-31T03:17:23Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。