論文の概要: What Makes Good In-Context Examples for GPT-$3$?
- arxiv url: http://arxiv.org/abs/2101.06804v1
- Date: Sun, 17 Jan 2021 23:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 20:19:12.657485
- Title: What Makes Good In-Context Examples for GPT-$3$?
- Title(参考訳): gpt-$3$のよいインコンテキストの例は何でしょう?
- Authors: Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin,
Weizhu Chen
- Abstract要約: GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
- 参考スコア(独自算出の注目度): 101.99751777056314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT-$3$ has attracted lots of attention due to its superior performance
across a wide range of NLP tasks, especially with its powerful and versatile
in-context few-shot learning ability. Despite its success, we found that the
empirical results of GPT-$3$ depend heavily on the choice of in-context
examples. In this work, we investigate whether there are more effective
strategies for judiciously selecting in-context examples (relative to random
sampling) that better leverage GPT-$3$'s few-shot capabilities. Inspired by the
recent success of leveraging a retrieval module to augment large-scale neural
network models, we propose to retrieve examples that are semantically-similar
to a test sample to formulate its corresponding prompt. Intuitively, the
in-context examples selected with such a strategy may serve as more informative
inputs to unleash GPT-$3$'s extensive knowledge. We evaluate the proposed
approach on several natural language understanding and generation benchmarks,
where the retrieval-based prompt selection approach consistently outperforms
the random baseline. Moreover, it is observed that the sentence encoders
fine-tuned on task-related datasets yield even more helpful retrieval results.
Notably, significant gains are observed on tasks such as table-to-text
generation (41.9% on the ToTTo dataset) and open-domain question answering
(45.5% on the NQ dataset). We hope our investigation could help understand the
behaviors of GPT-$3$ and large-scale pre-trained LMs in general and enhance
their few-shot capabilities.
- Abstract(参考訳): gpt-$3$は、幅広いnlpタスクにまたがる優れたパフォーマンス、特に、強力で多彩なコンテキスト内少数ショット学習能力によって、多くの注目を集めている。
その成功にもかかわらず、GPT-$3$の実証結果は、文脈内例の選択に大きく依存していることがわかった。
本研究は,GPT-$3$の複数ショット機能を活用するために,テキスト中のサンプル(ランダムサンプリングに関連して)をより効果的に選択する戦略が存在するかを検討する。
大規模ニューラルネットワークモデルの強化に検索モジュールを活用した最近の成功に触発されて,テストサンプルと意味的に類似した例を検索し,それに対応するプロンプトを定式化する。
直感的には、そのような戦略で選択された文脈内例は、GPT-$3$の広範な知識を解き放つためのより情報的な入力として機能する。
提案手法をいくつかの自然言語理解・生成ベンチマークで評価し、検索に基づくプロンプト選択手法はランダムベースラインを一貫して上回っている。
さらに,タスク関連データセットを微調整した文エンコーダにより,より有用な検索結果が得られることがわかった。
特に、テーブル・ツー・テキスト生成(ToTToデータセットでは41.9%)やオープン・ドメインの質問応答(NQデータセットでは45.5%)といったタスクでは顕著な増加が見られる。
我々は,GPT-$3および大規模事前学習型LMの挙動を概ね理解し,その少数の機能向上に寄与することを期待している。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Designing Informative Metrics for Few-Shot Example Selection [14.961505860372492]
本稿では,複雑性に基づく逐次タギングタスクのプロンプト選択手法を提案する。
このアプローチは、サンプルの選択専用のモデルのトレーニングを避ける。
文レベルと単語レベルの両方のメトリクスを用いて、例の複雑さと検討中の(テスト)文とを一致させる。
論文 参考訳(メタデータ) (2024-03-06T17:11:38Z) - $Se^2$: Sequential Example Selection for In-Context Learning [83.17038582333716]
インコンテキスト学習(ICL)のための大規模言語モデル(LLM)は、実演例によって起動する必要がある。
以前の研究は、主に"select then organize"パラダイムに従って、ICLの例の選択を幅広く検討してきた。
本稿では,この問題を$Se$quential $Se$lection問題として定式化し,シーケンシャル・アウェア法である$Se2$を導入する。
論文 参考訳(メタデータ) (2024-02-21T15:35:04Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Towards Informative Few-Shot Prompt with Maximum Information Gain for
In-Context Learning [30.536184852029386]
大規模言語モデル (LLM) は、文脈内学習 (ICL) を行う能力を有する。
LLMは、新しい下流タスクを条件としていくつかのデモを活用することで、ICL(In-context Learning)に参加する能力を持っている。
しかし、この特定の学習パラダイムは、選択されたサンプルの入力分布、順序付け、プロンプトフォーマットなどの要因によって引き起こされる実質的なばらつきから生じる高い不安定さに悩まされる。
論文 参考訳(メタデータ) (2023-10-13T07:49:11Z) - Breaking the Bank with ChatGPT: Few-Shot Text Classification for Finance [4.305568120980929]
GPT-3.5とGPT-4によるインコンテキスト学習は、必要な技術的専門知識を最小化し、高価なGPUコンピューティングの必要性を排除する。
トレーニング済みでマスキングされた他の言語モデルをSetFitで微調整して、フルデータと少数ショットの両方で最先端の結果を得る。
その結果, GPT-3.5 と GPT-4 のクエリは, より少ない例でも, 微調整, 非生成モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T15:04:16Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。