論文の概要: Skill-Based Few-Shot Selection for In-Context Learning
- arxiv url: http://arxiv.org/abs/2305.14210v2
- Date: Tue, 10 Oct 2023 16:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:25:27.469031
- Title: Skill-Based Few-Shot Selection for In-Context Learning
- Title(参考訳): コンテキスト内学習のためのスキルベースマイノショット選択
- Authors: Shengnan An, Bo Zhou, Zeqi Lin, Qiang Fu, Bei Chen, Nanning Zheng,
Weizhu Chen and Jian-Guang Lou
- Abstract要約: Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 123.26522773708683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning is the paradigm that adapts large language models to
downstream tasks by providing a few examples. Few-shot selection -- selecting
appropriate examples for each test instance separately -- is important for
in-context learning. In this paper, we propose Skill-KNN, a skill-based
few-shot selection method for in-context learning. The key advantages of
Skill-KNN include: (1) it addresses the problem that existing methods based on
pre-trained embeddings can be easily biased by surface natural language
features that are not important for the target task; (2) it does not require
training or fine-tuning of any models, making it suitable for frequently
expanding or changing example banks. The key insight is to optimize the inputs
fed into the embedding model, rather than tuning the model itself. Technically,
Skill-KNN generates the skill-based descriptions for each test case and
candidate example by utilizing a pre-processing few-shot prompting, thus
eliminating unimportant surface features. Experimental results across five
cross-domain semantic parsing datasets and six backbone models show that
Skill-KNN significantly outperforms existing methods.
- Abstract(参考訳): インコンテキスト学習(in-context learning)は,大規模な言語モデルをダウンストリームタスクに適用するパラダイムである。
テストインスタンス毎に適切な例を選択することの少ない選択は、コンテキスト内学習において重要です。
本稿では,テキスト内学習のためのスキルベース少数ショット選択手法であるSkill-KNNを提案する。
skill-knnの主な利点は、(1)事前学習された埋め込みに基づく既存のメソッドが、ターゲットタスクにとって重要でない表面的自然言語特徴によって、容易にバイアスを負うことができるという問題、(2)いかなるモデルのトレーニングや微調整も必要とせず、頻繁な拡張や変更に適すること、である。
重要な洞察は、モデル自体をチューニングするのではなく、組み込みモデルに供給される入力を最適化することだ。
技術的には、skill-knnは事前処理の少ないプロンプトを利用して各テストケースと候補サンプルのスキルベース記述を生成し、重要でない表面特徴を排除している。
5つのクロスドメインセマンティクスパースデータセットと6つのバックボーンモデルによる実験結果は、skill-knnが既存のメソッドを大きく上回っていることを示している。
関連論文リスト
- Irreducible Curriculum for Language Model Pretraining [46.895234111411426]
本稿では,言語モデル事前学習のためのカリキュラム学習アルゴリズムとして,既約カリキュラムを提案する。
RedPajama-1Bデータセットに関する我々の実験は、すべての7つの領域で検証の難易度が一貫した改善を示した。
論文 参考訳(メタデータ) (2023-10-23T22:41:33Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。