論文の概要: Instances Need More Care: Rewriting Prompts for Instances with LLMs in
the Loop Yields Better Zero-Shot Performance
- arxiv url: http://arxiv.org/abs/2310.02107v3
- Date: Sat, 9 Mar 2024 19:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:57:22.163435
- Title: Instances Need More Care: Rewriting Prompts for Instances with LLMs in
the Loop Yields Better Zero-Shot Performance
- Title(参考訳): インスタンスはもっと注意が必要だ:ループにllmを持つインスタンスのプロンプトを書き直すと、ゼロショットパフォーマンスが向上する
- Authors: Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao
- Abstract要約: PRomPTedは、ループ内のLLMの革新的な方法に従って、個々のタスクインスタンスに対してゼロショットプロンプトを最適化するアプローチである。
GPT-4に基づく13のデータセットと10のタスクタイプに対する包括的評価の結果,PRomPTedは単純ゼロショットアプローチと強いベースラインの両方を著しく上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 12.667004178741406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized zero-shot task performance,
mitigating the need for task-specific annotations while enhancing task
generalizability. Despite its advancements, current methods using trigger
phrases such as ``Let's think step by step'' remain limited. This study
introduces PRomPTed, an approach that optimizes the zero-shot prompts for
individual task instances following an innovative manner of ``LLMs in the
loop''. Our comprehensive evaluation across 13 datasets and 10 task types based
on GPT-4 reveals that PRomPTed significantly outperforms both the naive
zero-shot approaches and a strong baseline (i.e., ``Output Refinement'') which
refines the task output instead of the input prompt. Our experimental results
also confirmed the generalization of this advantage to the relatively weaker
GPT-3.5. Even more intriguingly, we found that leveraging GPT-3.5 to rewrite
prompts for the stronger GPT-4 not only matches but occasionally exceeds the
efficacy of using GPT-4 as the prompt rewriter. Our research thus presents a
huge value in not only enhancing zero-shot LLM performance but also potentially
enabling supervising LLMs with their weaker counterparts, a capability
attracting much interest recently.
- Abstract(参考訳): 大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらし、タスク固有のアノテーションの必要性を軽減し、タスクの一般化性を高めている。
その進歩にもかかわらず、'Let's Think by Step'のようなトリガーフレーズを使った現在のメソッドは制限されている。
本研究では,``llms in the loop''という革新的な方法に従って,個々のタスクインスタンスに対してゼロショットプロンプトを最適化するアプローチであるprodutedを紹介する。
GPT-4に基づく13のデータセットと10のタスクタイプにわたる包括的な評価により、PRomPTedは、入力プロンプトの代わりにタスク出力を洗練する、単純なゼロショットアプローチと強いベースライン(すなわち ``Output Refinement'')の両方を著しく上回ります。
実験の結果, 比較的弱い gpt-3.5 に対するこの利点の一般化も確認できた。
さらに興味深いことに, GPT-3.5 を用いてより強力な GPT-4 のプロンプトを書き換えるだけでなく, 時折 GPT-4 をプロンプトリライタとして使用する効果を上回ることが判明した。
本研究は, ゼロショットLDMの性能向上だけでなく, より弱めのLCMを監視できる可能性も示しており, 最近では注目されている。
関連論文リスト
- Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of
Prompting Strategies [51.485598133884615]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。