論文の概要: Better Zero-Shot Reasoning with Self-Adaptive Prompting
- arxiv url: http://arxiv.org/abs/2305.14106v1
- Date: Tue, 23 May 2023 14:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:43:53.924880
- Title: Better Zero-Shot Reasoning with Self-Adaptive Prompting
- Title(参考訳): 自己適応型プロンプトによるゼロショット推論の改善
- Authors: Xingchen Wan, Ruoxi Sun, Hanjun Dai, Sercan O. Arik, Tomas Pfister
- Abstract要約: 現代の大規模言語モデル(LLM)は、しばしば人間に似たステップ・バイ・ステップの推論を通じて、洗練されたタスクにおいて印象的な能力を示してきた。
本稿では,LCMの新しいプロンプト設計手法である一貫性に基づく自己適応型プロンプト(COSP)を提案する。
COSPは、ゼロショットベースラインに比べて最大15%の性能向上を示し、様々な推論タスクにおいて、数ショットベースラインを超えている。
- 参考スコア(独自算出の注目度): 39.54061907239995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) have demonstrated impressive capabilities
at sophisticated tasks, often through step-by-step reasoning similar to humans.
This is made possible by their strong few and zero-shot abilities -- they can
effectively learn from a handful of handcrafted, completed responses
("in-context examples"), or are prompted to reason spontaneously through
specially designed triggers. Nonetheless, some limitations have been observed.
First, performance in the few-shot setting is sensitive to the choice of
examples, whose design requires significant human effort. Moreover, given the
diverse downstream tasks of LLMs, it may be difficult or laborious to handcraft
per-task labels. Second, while the zero-shot setting does not require
handcrafting, its performance is limited due to the lack of guidance to the
LLMs. To address these limitations, we propose Consistency-based Self-adaptive
Prompting (COSP), a novel prompt design method for LLMs. Requiring neither
handcrafted responses nor ground-truth labels, COSP selects and builds the set
of examples from the LLM zero-shot outputs via carefully designed criteria that
combine consistency, diversity and repetition. In the zero-shot setting for
three different LLMs, we show that using only LLM predictions, COSP improves
performance up to 15% compared to zero-shot baselines and matches or exceeds
few-shot baselines for a range of reasoning tasks.
- Abstract(参考訳): 現代の大規模言語モデル(llm)は、人間に似たステップバイステップ推論を通じて、高度なタスクで印象的な能力を発揮している。
これは、非常に少数でゼロショットの能力によって実現される - 少数の手作りで完了した応答("in-context example")から効果的に学習したり、特別に設計されたトリガーを通じて自然に推論するように促される。
しかし、いくつかの制限が観測されている。
第一に、数ショット設定のパフォーマンスは、人間の努力を要する設計の例の選択に敏感である。
さらに、LLMの様々な下流タスクを考えると、タスク毎のハンドクラフトには困難か、あるいは手間がかかる可能性がある。
第2に、ゼロショット設定は手作りを必要としないが、llmへのガイダンスの欠如により性能が制限されている。
これらの制約に対処するために,LLMの新しいプロンプト設計手法である一貫性に基づく自己適応型プロンプト(COSP)を提案する。
手作りの応答も地味ラベルも必要とせず、COSPは一貫性、多様性、反復性を組み合わせた慎重に設計された基準により、LCMゼロショット出力からサンプルセットを選択し、構築する。
3つの異なるLCMのゼロショット設定において、LCM予測のみを用いることで、COSPはゼロショットベースラインと比較して最大15%向上し、様々な推論タスクにおいて数ショットベースラインを超えるか、あるいは超えることを示す。
関連論文リスト
- Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Universal Self-Adaptive Prompting [60.67460565566514]
Universal Self-Adaptive Prompting (USP) はゼロショット学習に適した自動プロンプト設計手法である。
USPは普遍的なプロンプトを達成するために、可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類する。
我々は,PaLMおよびPaLM 2モデルを用いてUSPを評価し,標準ゼロショットベースラインよりもかなり強い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T09:09:48Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。