論文の概要: Prompt2Model: Generating Deployable Models from Natural Language
Instructions
- arxiv url: http://arxiv.org/abs/2308.12261v1
- Date: Wed, 23 Aug 2023 17:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:27:45.333221
- Title: Prompt2Model: Generating Deployable Models from Natural Language
Instructions
- Title(参考訳): Prompt2Model: 自然言語命令からデプロイ可能なモデルを生成する
- Authors: Vijay Viswanathan, Chenyang Zhao, Amanda Bertsch, Tongshuang Wu,
Graham Neubig
- Abstract要約: 大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
- 参考スコア(独自算出の注目度): 74.19816829003729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) enable system builders today to create competent
NLP systems through prompting, where they only need to describe the task in
natural language and provide a few examples. However, in other ways, LLMs are a
step backward from traditional special-purpose NLP models; they require
extensive computational resources for deployment and can be gated behind APIs.
In this paper, we propose Prompt2Model, a general-purpose method that takes a
natural language task description like the prompts provided to LLMs, and uses
it to train a special-purpose model that is conducive to deployment. This is
done through a multi-step process of retrieval of existing datasets and
pretrained models, dataset generation using LLMs, and supervised fine-tuning on
these retrieved and generated datasets. Over three tasks, we demonstrate that
given the same few-shot prompt as input, Prompt2Model trains models that
outperform the results of a strong LLM, gpt-3.5-turbo, by an average of 20%
while being up to 700 times smaller. We also show that this data can be used to
obtain reliable performance estimates of model performance, enabling model
developers to assess model reliability before deployment. Prompt2Model is
available open-source at https://github.com/neulab/prompt2model.
- Abstract(参考訳): 大規模言語モデル(LLM)により、今日のシステムビルダーは、自然言語でタスクを記述するだけで、いくつかの例を提供するプロンプトを通じて、有能なNLPシステムを作成することができる。
しかし、別の意味では、LLMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMが提供するプロンプトのように自然言語によるタスク記述を行う汎用的手法であるPrompt2Modelを提案する。
これは、既存のデータセットと事前訓練されたモデルの検索、LLMを使用したデータセット生成、これらの検索および生成されたデータセットの微調整のマルチステッププロセスを通じて行われる。
3つのタスクで、入力と同じ数発のプロンプトが与えられた場合、Prompt2Modelは、強いLLM、gpt-3.5-turboの結果を平均20%上回り、最大700倍の精度でトレーニングする。
また,このデータを用いてモデル性能の信頼性評価を行い,モデル開発者がモデルの信頼性をデプロイ前に評価できることを示す。
Prompt2Modelはhttps://github.com/neulab/prompt2modelでオープンソース公開されている。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。
我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文 参考訳(メタデータ) (2024-05-08T03:57:45Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。