論文の概要: Better Zero-Shot Reasoning with Self-Adaptive Prompting
- arxiv url: http://arxiv.org/abs/2305.14106v1
- Date: Tue, 23 May 2023 14:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:43:53.924880
- Title: Better Zero-Shot Reasoning with Self-Adaptive Prompting
- Title(参考訳): 自己適応型プロンプトによるゼロショット推論の改善
- Authors: Xingchen Wan, Ruoxi Sun, Hanjun Dai, Sercan O. Arik, Tomas Pfister
- Abstract要約: 現代の大規模言語モデル(LLM)は、しばしば人間に似たステップ・バイ・ステップの推論を通じて、洗練されたタスクにおいて印象的な能力を示してきた。
本稿では,LCMの新しいプロンプト設計手法である一貫性に基づく自己適応型プロンプト(COSP)を提案する。
COSPは、ゼロショットベースラインに比べて最大15%の性能向上を示し、様々な推論タスクにおいて、数ショットベースラインを超えている。
- 参考スコア(独自算出の注目度): 39.54061907239995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) have demonstrated impressive capabilities
at sophisticated tasks, often through step-by-step reasoning similar to humans.
This is made possible by their strong few and zero-shot abilities -- they can
effectively learn from a handful of handcrafted, completed responses
("in-context examples"), or are prompted to reason spontaneously through
specially designed triggers. Nonetheless, some limitations have been observed.
First, performance in the few-shot setting is sensitive to the choice of
examples, whose design requires significant human effort. Moreover, given the
diverse downstream tasks of LLMs, it may be difficult or laborious to handcraft
per-task labels. Second, while the zero-shot setting does not require
handcrafting, its performance is limited due to the lack of guidance to the
LLMs. To address these limitations, we propose Consistency-based Self-adaptive
Prompting (COSP), a novel prompt design method for LLMs. Requiring neither
handcrafted responses nor ground-truth labels, COSP selects and builds the set
of examples from the LLM zero-shot outputs via carefully designed criteria that
combine consistency, diversity and repetition. In the zero-shot setting for
three different LLMs, we show that using only LLM predictions, COSP improves
performance up to 15% compared to zero-shot baselines and matches or exceeds
few-shot baselines for a range of reasoning tasks.
- Abstract(参考訳): 現代の大規模言語モデル(llm)は、人間に似たステップバイステップ推論を通じて、高度なタスクで印象的な能力を発揮している。
これは、非常に少数でゼロショットの能力によって実現される - 少数の手作りで完了した応答("in-context example")から効果的に学習したり、特別に設計されたトリガーを通じて自然に推論するように促される。
しかし、いくつかの制限が観測されている。
第一に、数ショット設定のパフォーマンスは、人間の努力を要する設計の例の選択に敏感である。
さらに、LLMの様々な下流タスクを考えると、タスク毎のハンドクラフトには困難か、あるいは手間がかかる可能性がある。
第2に、ゼロショット設定は手作りを必要としないが、llmへのガイダンスの欠如により性能が制限されている。
これらの制約に対処するために,LLMの新しいプロンプト設計手法である一貫性に基づく自己適応型プロンプト(COSP)を提案する。
手作りの応答も地味ラベルも必要とせず、COSPは一貫性、多様性、反復性を組み合わせた慎重に設計された基準により、LCMゼロショット出力からサンプルセットを選択し、構築する。
3つの異なるLCMのゼロショット設定において、LCM予測のみを用いることで、COSPはゼロショットベースラインと比較して最大15%向上し、様々な推論タスクにおいて数ショットベースラインを超えるか、あるいは超えることを示す。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。