論文の概要: Generative Calibration for In-context Learning
- arxiv url: http://arxiv.org/abs/2310.10266v1
- Date: Mon, 16 Oct 2023 10:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:07:37.027421
- Title: Generative Calibration for In-context Learning
- Title(参考訳): 文脈内学習のための生成キャリブレーション
- Authors: Zhongtao Jiang, Yuanzhe Zhang, Cao Liu, Jun Zhao, Kang Liu
- Abstract要約: 本稿では,このようなパラドックスが主にコンテキスト内モデルからデータ分布へのラベルシフトによるものであることを示す。
この理解により、ラベルの辺りを調整してコンテキスト内予測分布を調整できる。
我々は,本手法を生成的キャリブレーション(generative calibration)と呼び,12のテキスト分類タスクと12のLLMを774Mから33Bに拡張した徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 20.207930451266822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the most exciting features of large language models (LLMs),
in-context learning is a mixed blessing. While it allows users to
fast-prototype a task solver with only a few training examples, the performance
is generally sensitive to various configurations of the prompt such as the
choice or order of the training examples. In this paper, we for the first time
theoretically and empirically identify that such a paradox is mainly due to the
label shift of the in-context model to the data distribution, in which LLMs
shift the label marginal $p(y)$ while having a good label conditional $p(x|y)$.
With this understanding, we can simply calibrate the in-context predictive
distribution by adjusting the label marginal, which is estimated via
Monte-Carlo sampling over the in-context model, i.e., generation of LLMs. We
call our approach as generative calibration. We conduct exhaustive experiments
with 12 text classification tasks and 12 LLMs scaling from 774M to 33B,
generally find that the proposed method greatly and consistently outperforms
the ICL as well as state-of-the-art calibration methods, by up to 27% absolute
in macro-F1. Meanwhile, the proposed method is also stable under different
prompt configurations.
- Abstract(参考訳): 大規模言語モデル(llm)の最もエキサイティングな特徴の1つとして、コンテキスト内学習は混合祝福である。
ユーザはいくつかのトレーニング例でタスクソルバを高速プロトタイプ化できるが、そのパフォーマンスは一般的に、トレーニング例の選択や順序など、プロンプトのさまざまな構成に敏感である。
本稿では,このようなパラドックスを理論上,経験的に初めて同定した。このパラドックスは,llms が適切なラベル条件値 $p(x|y)$ を持ちながら,限界値 $p(y)$ をシフトするデータ分布へのインコンテキストモデルのラベルシフトに起因する。
この理解により,ラベル境界をモンテカルロ法で推定し,文脈内モデル,すなわちLLMの生成を補正することで,文脈内予測分布のキャリブレーションを簡便に行うことができる。
私たちはこのアプローチをジェネレーティブキャリブレーションと呼んでいる。
12のテキスト分類タスクと12のllmスケーリングを774mから33bに拡張して徹底的な実験を行い,提案手法がマクロf1において最大27%の絶対値で icl と最先端のキャリブレーション手法を圧倒的に上回っていることを発見した。
一方,提案手法は,異なるプロンプト構成下でも安定である。
関連論文リスト
- In-Context Example Ordering Guided by Label Distributions [34.30216341226014]
最適化問題としてコンテキスト内注文を定式化する。
ラベルの比率から学習するという考えに触発され、モデルの確率予測によって導かれる文脈内サンプル注文の原則を2つ提案する。
提案手法は, 分類精度の向上, モデルの誤校正の低減, 文脈内事例の選択により, ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-18T04:08:10Z) - Enhancing In-context Learning via Linear Probe Calibration [42.74836047963721]
In-context Learning (ICL)は、GPT(Generative Pre-trained Transformer)のようなモデルを利用した自然言語処理の新しいパラダイムである。
実ケースでのICLの適用は、サンプルの数とともにスケールせず、異なるプロンプトテンプレートやデモの置換に対する堅牢性に欠ける。
本稿では、ICLを用いたGPT様モデルにより、シャノンエントロピーに基づく新しい指標に基づく信頼性の低い予測結果が得られることを示す。
リニアプローブ(LinC)と呼ばれる新しい手法を提案する。これはモデルの出力確率を校正し、信頼性の高い予測と改善をもたらす。
論文 参考訳(メタデータ) (2024-01-22T23:35:09Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Flexible Distribution Alignment: Towards Long-tailed Semi-supervised
Learning with Proper Calibration [19.715262734192308]
Longtailed semi-supervised learning (LTSSL)は、半教師付きアプリケーションのための実践的なシナリオである。
この問題は、ラベル付きとラベルなしのクラス分布の相違によってしばしば悪化する。
本稿では,新しい適応ロジット調整型損失フレームワークFlexDAを紹介する。
論文 参考訳(メタデータ) (2023-06-07T17:50:59Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。