論文の概要: Generative Calibration for In-context Learning
- arxiv url: http://arxiv.org/abs/2310.10266v1
- Date: Mon, 16 Oct 2023 10:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:07:37.027421
- Title: Generative Calibration for In-context Learning
- Title(参考訳): 文脈内学習のための生成キャリブレーション
- Authors: Zhongtao Jiang, Yuanzhe Zhang, Cao Liu, Jun Zhao, Kang Liu
- Abstract要約: 本稿では,このようなパラドックスが主にコンテキスト内モデルからデータ分布へのラベルシフトによるものであることを示す。
この理解により、ラベルの辺りを調整してコンテキスト内予測分布を調整できる。
我々は,本手法を生成的キャリブレーション(generative calibration)と呼び,12のテキスト分類タスクと12のLLMを774Mから33Bに拡張した徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 20.207930451266822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the most exciting features of large language models (LLMs),
in-context learning is a mixed blessing. While it allows users to
fast-prototype a task solver with only a few training examples, the performance
is generally sensitive to various configurations of the prompt such as the
choice or order of the training examples. In this paper, we for the first time
theoretically and empirically identify that such a paradox is mainly due to the
label shift of the in-context model to the data distribution, in which LLMs
shift the label marginal $p(y)$ while having a good label conditional $p(x|y)$.
With this understanding, we can simply calibrate the in-context predictive
distribution by adjusting the label marginal, which is estimated via
Monte-Carlo sampling over the in-context model, i.e., generation of LLMs. We
call our approach as generative calibration. We conduct exhaustive experiments
with 12 text classification tasks and 12 LLMs scaling from 774M to 33B,
generally find that the proposed method greatly and consistently outperforms
the ICL as well as state-of-the-art calibration methods, by up to 27% absolute
in macro-F1. Meanwhile, the proposed method is also stable under different
prompt configurations.
- Abstract(参考訳): 大規模言語モデル(llm)の最もエキサイティングな特徴の1つとして、コンテキスト内学習は混合祝福である。
ユーザはいくつかのトレーニング例でタスクソルバを高速プロトタイプ化できるが、そのパフォーマンスは一般的に、トレーニング例の選択や順序など、プロンプトのさまざまな構成に敏感である。
本稿では,このようなパラドックスを理論上,経験的に初めて同定した。このパラドックスは,llms が適切なラベル条件値 $p(x|y)$ を持ちながら,限界値 $p(y)$ をシフトするデータ分布へのインコンテキストモデルのラベルシフトに起因する。
この理解により,ラベル境界をモンテカルロ法で推定し,文脈内モデル,すなわちLLMの生成を補正することで,文脈内予測分布のキャリブレーションを簡便に行うことができる。
私たちはこのアプローチをジェネレーティブキャリブレーションと呼んでいる。
12のテキスト分類タスクと12のllmスケーリングを774mから33bに拡張して徹底的な実験を行い,提案手法がマクロf1において最大27%の絶対値で icl と最先端のキャリブレーション手法を圧倒的に上回っていることを発見した。
一方,提案手法は,異なるプロンプト構成下でも安定である。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - In-Context Example Ordering Guided by Label Distributions [34.30216341226014]
最適化問題としてコンテキスト内注文を定式化する。
ラベルの比率から学習するという考えに触発され、モデルの確率予測によって導かれる文脈内サンプル注文の原則を2つ提案する。
提案手法は, 分類精度の向上, モデルの誤校正の低減, 文脈内事例の選択により, ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-18T04:08:10Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。