論文の概要: $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference
- arxiv url: http://arxiv.org/abs/2303.13824v1
- Date: Fri, 24 Mar 2023 06:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:25:09.813911
- Title: $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference
- Title(参考訳): $k$NN Prompting: キャリブレーションのない近接的推論によるコンテキスト学習
- Authors: Benfeng Xu, Quan Wang, Zhendong Mao, Yajuan Lyu, Qiaoqiao She,
Yongdong Zhang
- Abstract要約: In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 75.08572535009276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-Context Learning (ICL), which formulates target tasks as prompt completion
conditioned on in-context demonstrations, has become the prevailing utilization
of LLMs. In this paper, we first disclose an actual predicament for this
typical usage that it can not scale up with training data due to context length
restriction. Besides, existing works have shown that ICL also suffers from
various biases and requires delicate calibration treatment. To address both
challenges, we advocate a simple and effective solution, $k$NN Prompting, which
first queries LLM with training data for distributed representations, then
predicts test instances by simply referring to nearest neighbors. We conduct
comprehensive experiments to demonstrate its two-fold superiority: 1)
Calibration-Free: $k$NN Prompting does not directly align LLM output
distribution with task-specific label space, instead leverages such
distribution to align test and training instances. It significantly outperforms
state-of-the-art calibration-based methods under comparable few-shot scenario.
2) Beyond-Context: $k$NN Prompting can further scale up effectively with as
many training data as are available, continually bringing substantial
improvements. The scaling trend holds across 10 orders of magnitude ranging
from 2 shots to 1024 shots as well as different LLMs scales ranging from 0.8B
to 30B. It successfully bridges data scaling into model scaling, and brings new
potentials for the gradient-free paradigm of LLM deployment. Code is publicly
available.
- Abstract(参考訳): インコンテキスト・ラーニング (ICL) は、インコンテキスト・デモの即時完了条件として目標タスクを定式化し、LLMの利用が主流となっている。
本稿では,コンテキスト長制限のためトレーニングデータではスケールアップできないという,この典型的な使用方法の前提を最初に明らかにする。
また、既存の研究によれば、iclも様々なバイアスを負い、微妙な校正処理を必要とすることが示されている。
両課題に対処するために,まず LLM を分散表現のトレーニングデータでクエリし,次に近くの隣人を参照してテストインスタンスを予測する,シンプルで効果的なソリューションである $k$NN Prompting を提唱する。
我々は、その2倍の優位性を示す包括的な実験を行う。
1) Calibration-Free: $k$NN Promptingは、LSM出力分布とタスク固有のラベル空間を直接整列するのではなく、テストとトレーニングインスタンスを整列するためにそのような分布を利用する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
2)Beyond-Context:$k$NN Promptingは、可能な限り多くのトレーニングデータを使って、より効果的にスケールアップでき、継続的な改善をもたらす。
スケーリングの傾向は、2ショットから1024ショットまでの10桁、および0.8Bから30Bまでの様々なLLMスケールにまたがる。
データスケーリングをモデルスケーリングにブリッジし、LLMデプロイメントの勾配のないパラダイムに新たな可能性をもたらす。
コードは公開されている。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Feature-Adaptive and Data-Scalable In-Context Learning [36.01997148676005]
FADS-ICLは、機能適応型でデータスケーリング可能なコンテキスト内学習フレームワークである。
タスク適応機能を活用して、下流タスクの推論を促進することができる。
FADS-ICLは従来の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-05-17T12:32:53Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Generative Calibration for In-context Learning [20.207930451266822]
本稿では,このようなパラドックスが主にコンテキスト内モデルからデータ分布へのラベルシフトによるものであることを示す。
この理解により、ラベルの辺りを調整してコンテキスト内予測分布を調整できる。
我々は,本手法を生成的キャリブレーション(generative calibration)と呼び,12のテキスト分類タスクと12のLLMを774Mから33Bに拡張した徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-10-16T10:45:02Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - Batch Calibration: Rethinking Calibration for In-Context Learning and
Prompt Engineering [12.967536233145614]
Batch (BC) は、バッチ入力からコンテキストバイアスを制御する、単純だが直感的な手法である。
BCはゼロショットであり、推論のみであり、追加コストは無視できない。
10以上の自然言語理解および画像分類タスクにおいて,従来のキャリブレーションベースラインに対する最先端性能を示す。
論文 参考訳(メタデータ) (2023-09-29T13:55:45Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。