Fugu-MT 論文翻訳(概要): Instance Needs More Care: Rewriting Prompts for Instances Yields Better Zero-Shot Performance

論文の概要: Instance Needs More Care: Rewriting Prompts for Instances Yields Better Zero-Shot Performance

arxiv url: http://arxiv.org/abs/2310.02107v2
Date: Thu, 5 Oct 2023 22:46:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 01:57:29.910788
Title: Instance Needs More Care: Rewriting Prompts for Instances Yields Better Zero-Shot Performance
Title（参考訳）: インスタンスはもっと注意が必要だ:インスタンスのプロンプトを書き直すとゼロショットパフォーマンスが向上する
Authors: Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao
Abstract要約: PRoMPTdは、個々のテストインプットのタスクプロンプトを、より具体的で曖昧で完全なものに書き換えるアプローチである。複雑なMATHデータセットでは10%,HumanEvalではコード生成タスクでは5%,絶対的な改善を実現している。
参考スコア（独自算出の注目度）: 12.667004178741406
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enabling large language models (LLMs) to perform tasks in zero-shot has been an appealing goal owing to its labor-saving (i.e., requiring no task-specific annotations); as such, zero-shot prompting approaches also enjoy better task generalizability. To improve LLMs' zero-shot performance, prior work has focused on devising more effective task instructions (e.g., ``let's think step by step'' ). However, we argue that, in order for an LLM to solve them correctly in zero-shot, individual test instances need more carefully designed and customized instructions. To this end, we propose PRoMPTd, an approach that rewrites the task prompt for each individual test input to be more specific, unambiguous, and complete, so as to provide better guidance to the task LLM. We evaluated PRoMPTd on eight datasets covering tasks including arithmetics, logical reasoning, and code generation, using GPT-4 as the task LLM. Notably, PRoMPTd achieves an absolute improvement of around 10% on the complex MATH dataset and 5% on the code generation task on HumanEval, outperforming conventional zero-shot methods. In addition, we also showed that the rewritten prompt can provide better interpretability of how the LLM resolves each test instance, which can potentially be leveraged as a defense mechanism against adversarial prompting. The source code and dataset can be obtained from https://github.com/salokr/PRoMPTd
Abstract（参考訳）: 大規模な言語モデル(llm)がゼロショットでタスクを実行することを可能にすることは、その労力削減(すなわちタスク固有のアノテーションを必要としない)による魅力的な目標だった。 LLMのゼロショットのパフォーマンスを改善するために、以前の作業はより効果的なタスク命令(例えば ``let's Think by Step'' など)の開発に重点を置いてきた。しかし、LLMがゼロショットで正しく解決するためには、個別のテストインスタンスがより慎重に設計され、カスタマイズされた指示を必要とする。そこで本研究では,PRoMPTdを提案する。PRoMPTdは,各テストインプットに対するタスクプロンプトを,より具体的で,曖昧で,かつ完全なものに書き換えることで,タスクLLMに対するより良いガイダンスを提供する。 GPT-4 をタスク LLM として,算術,論理的推論,コード生成を含む8つのタスクを対象とした PRoMPTd の評価を行った。特に、PRoMPTdは、複雑なMATHデータセットで10%、HumanEvalでコード生成タスクで5%という絶対的な改善を実現し、従来のゼロショットメソッドよりも優れています。さらに、書き換えプロンプトは、LLMが各テストインスタンスをどのように解決するかをよりよく理解し、敵のプロンプトに対する防御メカニズムとして活用できることを示した。ソースコードとデータセットはhttps://github.com/salokr/PRoMPTdから取得できる。

関連論文リスト

Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning [20.13007387453759]
Proximal Policy Optimization (PPO)は、大規模言語モデル(LLM)の機能を改善するためのフレームワークである。 PPOは監督された微調整よりも一貫して優れており、GLUEでは平均6.3ポイント向上している。本研究は,LLMを強化学習問題とみなすことで,新たなタスクに適応する上で有望な方向性を示すものである。
論文参考訳（メタデータ） (2024-10-14T19:16:56Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
How Effectively Do LLMs Extract Feature-Sentiment Pairs from App Reviews? [2.218667838700643]
本研究は,GPT-4,ChatGPT,およびLlama-2チャットの異なる変種を含む最先端LLMの性能を比較した。肯定的な感情と中立的な感情を予測するため、GPT-4は0ショット設定でf1スコアの76%と45%を達成している。
論文参考訳（メタデータ） (2024-09-11T10:21:13Z)
Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques [14.230480872339463]
本稿では,複数の大規模言語モデル(LLM)が2つのSQAタスク(障害局所化と脆弱性検出)にまたがる機能について検討する。 LLMの結果を組み合わせる投票機構を実装することで,両タスクにおいてGPT-3.5よりも10%以上の改善を実現した。このアプローチにより、障害のローカライゼーションが16%、脆弱性検出が12%、GPT-3.5が4%向上した。
論文参考訳（メタデータ） (2024-09-02T07:26:19Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models [5.0490573482829335]
大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。本稿では、情報検索(IR)における通過前の事前フィルタリングステップの使用について検討する。実験の結果, この事前フィルタリングにより, LLMは再ランクタスクにおいて, 性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-06-26T20:12:24Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)
RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。 TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文参考訳（メタデータ） (2023-09-26T17:31:57Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)
Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。 GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文参考訳（メタデータ） (2023-03-30T18:30:01Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。