論文の概要: Can Large Language Models Truly Understand Prompts? A Case Study with
Negated Prompts
- arxiv url: http://arxiv.org/abs/2209.12711v1
- Date: Mon, 26 Sep 2022 14:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 15:47:06.649299
- Title: Can Large Language Models Truly Understand Prompts? A Case Study with
Negated Prompts
- Title(参考訳): 大規模言語モデルはプロンプトを本当に理解できるか?
無効プロンプトを用いた1症例
- Authors: Joel Jang, Seonghyeon Ye, Minjoon Seo
- Abstract要約: これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。
本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
- 参考スコア(独自算出の注目度): 19.43042432631113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work has shown that there exists a scaling law between the size of
Language Models (LMs) and their zero-shot performance on different downstream
NLP tasks. In this work, we show that this phenomenon does not hold when
evaluating large LMs on tasks with negated prompts, but instead shows an
inverse scaling law. We evaluate 9 different tasks with negated prompts on (1)
pretrained LMs (OPT & GPT-3) of varying sizes (125M - 175B), (2) LMs further
pretrained to generalize to novel prompts (InstructGPT), (3) LMs provided with
few-shot examples, and (4) LMs fine-tuned specifically on negated prompts; all
LM types perform worse on negated prompts as they scale and show a huge
performance gap between the human performance when comparing the average score
on both original and negated prompts. By highlighting a critical limitation of
existing LMs and methods, we urge the community to develop new approaches of
developing LMs that actually follow the given instructions. We provide the code
and the datasets to explore negated prompts at
https://github.com/joeljang/negated-prompts-for-llms
- Abstract(参考訳): これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。
本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
我々は,(1) 異なるサイズ (125M - 175B) の事前訓練されたLM (OPT & GPT-3) ,(2) LM が新規プロンプト (インストラクトGPT) に一般化するためにさらに事前訓練されたLM (インストラクトGPT) ,(3) LM が少数例で提供され,(4) LM は負のプロンプトに微調整されている。
既存のlmsとメソッドの重大な制限を強調することで、コミュニティに対して、与えられた指示に実際に従うlmsを開発するための新しいアプローチの開発を促します。
https://github.com/joeljang/negated-prompts-for-llmsでネゲートプロンプトを探索するコードとデータセットを提供します。
関連論文リスト
- Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - BAGEL: Bootstrapping Agents by Guiding Exploration with Language [19.08719671800276]
この研究は、人間の監督なしに言語モデル(LM)エージェントをブートストラップする方法であるBAGELを提示する。
BAGELのデモを使用して、ゼロショットLMエージェントをテスト時に、検索したデモよりもコンテキスト内学習により適応する。
ToolQAとMiniWob++では2-13%以上の絶対値の改善が見られ、最大で13倍のエラーが発生しています。
論文 参考訳(メタデータ) (2024-03-12T23:59:15Z) - MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models [10.783764497590473]
トランスフォーマーベースの言語モデル(LM)は、大規模でハードコードされた入力ウィンドウを通してコンテキスト情報を追跡する。
メモリプロンプト(MemoryPrompt)は、LMを小さな補助的リカレントネットワークで補完し、その正規入力をベクトル列でプレフィックスすることでLMに情報伝達する手法である。
複数のファクト更新を追跡するLMの能力を調査するために設計されたタスクでテストされた MemoryPromptの拡張されたLM は、完全な入力履歴にアクセス可能なより大きなLMよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T11:30:39Z) - Small Language Model Can Self-correct [42.76612128849389]
本稿では,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに内在的アンダーライン・アンダーライン・コレクション(ISC)を導入する。
我々は,60億から13億のパラメータサイズを持つLMを用いて,常識推論と事実知識推論を含む2つのタスクで実験を行う。
論文 参考訳(メタデータ) (2024-01-14T14:29:07Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - PromptBoosting: Black-Box Text Classification with Ten Forward Passes [61.38341243907045]
PromptBoostingは、LMのパラメータ、勾配、隠された表現にアクセスすることなく、ニューラルネットワークモデル(LM)からテキスト分類器を構築するためのクエリ効率のよい手順である。
実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。
論文 参考訳(メタデータ) (2022-12-19T06:04:54Z) - Discovering Language Model Behaviors with Model-Written Evaluations [18.24267922379281]
言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。
ここでは、LMによる評価を自動的に生成する。
我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
論文 参考訳(メタデータ) (2022-12-19T05:13:52Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。