論文の概要: Instance Needs More Care: Rewriting Prompts for Instances Yields Better
Zero-Shot Performance
- arxiv url: http://arxiv.org/abs/2310.02107v2
- Date: Thu, 5 Oct 2023 22:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:57:29.910788
- Title: Instance Needs More Care: Rewriting Prompts for Instances Yields Better
Zero-Shot Performance
- Title(参考訳): インスタンスはもっと注意が必要だ:インスタンスのプロンプトを書き直すとゼロショットパフォーマンスが向上する
- Authors: Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao
- Abstract要約: PRoMPTdは、個々のテストインプットのタスクプロンプトを、より具体的で曖昧で完全なものに書き換えるアプローチである。
複雑なMATHデータセットでは10%,HumanEvalではコード生成タスクでは5%,絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 12.667004178741406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling large language models (LLMs) to perform tasks in zero-shot has been
an appealing goal owing to its labor-saving (i.e., requiring no task-specific
annotations); as such, zero-shot prompting approaches also enjoy better task
generalizability. To improve LLMs' zero-shot performance, prior work has
focused on devising more effective task instructions (e.g., ``let's think step
by step'' ). However, we argue that, in order for an LLM to solve them
correctly in zero-shot, individual test instances need more carefully designed
and customized instructions. To this end, we propose PRoMPTd, an approach that
rewrites the task prompt for each individual test input to be more specific,
unambiguous, and complete, so as to provide better guidance to the task LLM. We
evaluated PRoMPTd on eight datasets covering tasks including arithmetics,
logical reasoning, and code generation, using GPT-4 as the task LLM. Notably,
PRoMPTd achieves an absolute improvement of around 10% on the complex MATH
dataset and 5% on the code generation task on HumanEval, outperforming
conventional zero-shot methods. In addition, we also showed that the rewritten
prompt can provide better interpretability of how the LLM resolves each test
instance, which can potentially be leveraged as a defense mechanism against
adversarial prompting. The source code and dataset can be obtained from
https://github.com/salokr/PRoMPTd
- Abstract(参考訳): 大規模な言語モデル(llm)がゼロショットでタスクを実行することを可能にすることは、その労力削減(すなわちタスク固有のアノテーションを必要としない)による魅力的な目標だった。
LLMのゼロショットのパフォーマンスを改善するために、以前の作業はより効果的なタスク命令(例えば ``let's Think by Step'' など)の開発に重点を置いてきた。
しかし、LLMがゼロショットで正しく解決するためには、個別のテストインスタンスがより慎重に設計され、カスタマイズされた指示を必要とする。
そこで本研究では,PRoMPTdを提案する。PRoMPTdは,各テストインプットに対するタスクプロンプトを,より具体的で,曖昧で,かつ完全なものに書き換えることで,タスクLLMに対するより良いガイダンスを提供する。
GPT-4 をタスク LLM として,算術,論理的推論,コード生成を含む8つのタスクを対象とした PRoMPTd の評価を行った。
特に、PRoMPTdは、複雑なMATHデータセットで10%、HumanEvalでコード生成タスクで5%という絶対的な改善を実現し、従来のゼロショットメソッドよりも優れています。
さらに、書き換えプロンプトは、LLMが各テストインスタンスをどのように解決するかをよりよく理解し、敵のプロンプトに対する防御メカニズムとして活用できることを示した。
ソースコードとデータセットはhttps://github.com/salokr/PRoMPTdから取得できる。
関連論文リスト
- GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - How Effectively Do LLMs Extract Feature-Sentiment Pairs from App Reviews? [2.218667838700643]
本研究は,GPT-4,ChatGPT,およびLlama-2チャットの異なる変種を含む最先端LLMの性能を比較した。
肯定的な感情と中立的な感情を予測するため、GPT-4は0ショット設定でf1スコアの76%と45%を達成している。
論文 参考訳(メタデータ) (2024-09-11T10:21:13Z) - Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques [14.230480872339463]
本稿では,複数の大規模言語モデル(LLM)が2つのSQAタスク(障害局所化と脆弱性検出)にまたがる機能について検討する。
LLMの結果を組み合わせる投票機構を実装することで,両タスクにおいてGPT-3.5よりも10%以上の改善を実現した。
このアプローチにより、障害のローカライゼーションが16%、脆弱性検出が12%、GPT-3.5が4%向上した。
論文 参考訳(メタデータ) (2024-09-02T07:26:19Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。