論文の概要: A Study on the Calibration of In-context Learning
- arxiv url: http://arxiv.org/abs/2312.04021v2
- Date: Mon, 11 Dec 2023 06:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 12:23:41.786411
- Title: A Study on the Calibration of In-context Learning
- Title(参考訳): 文脈内学習の校正に関する研究
- Authors: Hanlin Zhang, Yi-Fan Zhang, Yaodong Yu, Dhruv Madeka, Dean Foster,
Eric Xing, Hima Lakkaraju, Sham Kakade
- Abstract要約: In-context Learning (ICL) は、フリーズした大規模言語モデル(LLM)をクラフトプロンプトで適応する手法として広く使われている。
モデルのサイズが大きくなるにつれて、そのようなトレードオフが悪化する可能性があることを示すために、広範な実験を行います。
温度スケーリングなどの一般的なリカレーション手法は,キャリブレーション誤差において限られた利得が得られることがわかった。
- 参考スコア(独自算出の注目度): 14.222101388781853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern auto-regressive language models are trained to minimize log loss on
broad data by predicting the next token so they are expected to get calibrated
answers in next-token prediction tasks. We study this for in-context learning
(ICL), a widely used way to adapt frozen large language models (LLMs) via
crafting prompts, and investigate the trade-offs between performance and
calibration on a wide range of natural language understanding and reasoning
tasks. We conduct extensive experiments to show that such trade-offs may get
worse as we increase model size, incorporate more ICL examples, and fine-tune
models using instruction, dialog, or reinforcement learning from human feedback
(RLHF) on carefully curated datasets. Furthermore, we find that common
recalibration techniques that are widely effective such as temperature scaling
provide limited gains in calibration errors, suggesting that new methods may be
required for settings where models are expected to be reliable.
- Abstract(参考訳): 現代の自己回帰型言語モデルは、次のトークンを予測することで、幅広いデータのログ損失を最小限に抑えるために訓練され、次のトークン予測タスクで校正された回答が得られる。
本研究は,凍った大規模言語モデル(llm)を製作プロンプトを通じて適応させる手段として広く用いられているin-context learning (icl) について検討し,幅広い自然言語理解と推論タスクにおける性能とキャリブレーションのトレードオフについて検討する。
モデルサイズを増加させ、より多くのicl例を取り入れ、人間フィードバック(rlhf)からの指示、ダイアログ、強化学習を用いた微調整モデルが注意深く収集されたデータセット上で、このようなトレードオフが悪化する可能性があることを示すために、広範な実験を実施します。
さらに,温度スケーリングなどの一般的なリカレーション手法では,キャリブレーション誤差が限定的であり,モデルの信頼性が期待できるような設定に新たな手法が必要となる可能性が示唆された。
関連論文リスト
- Reassessing How to Compare and Improve the Calibration of Machine Learning Models [7.183341902583164]
結果の予測確率がモデル予測に基づいてその結果の観測周波数と一致した場合、機械学習モデルを校正する。
キャリブレーションと予測の指標が追加の一般化の指標を伴わない限り、最先端のように見えるような簡単な再校正手法が存在することを示す。
論文 参考訳(メタデータ) (2024-06-06T13:33:45Z) - Probabilistic Calibration by Design for Neural Network Regression [2.3020018305241337]
本稿では,量子校正トレーニングと呼ばれる新しいエンドツーエンドモデルトレーニング手法を提案する。
57の回帰データセットを含む大規模実験において,本手法の性能を実証した。
論文 参考訳(メタデータ) (2024-03-18T17:04:33Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Variable-Based Calibration for Machine Learning Classifiers [11.9995808096481]
モデルのキャリブレーション特性を特徴付けるために,変数ベースのキャリブレーションの概念を導入する。
ほぼ完全なキャリブレーション誤差を持つモデルでは,データの特徴の関数としてかなりの誤校正が期待できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T00:49:31Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Meta-Calibration: Learning of Model Calibration Using Differentiable
Expected Calibration Error [46.12703434199988]
我々は、キャリブレーション品質を直接最適化できる、期待キャリブレーション誤差(DECE)のための新しい微分可能なサロゲートを導入する。
また、DECEを用いて検証セットの校正を最適化するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-17T15:47:50Z) - On Calibration of Scene-Text Recognition Models [16.181357648680365]
我々は最近のSTR法を分析し、それらが常に過信であることを示す。
注意に基づくデコーダでは,個々の文字予測のキャリブレーションが単語レベルのキャリブレーション誤差を増加させることを示す。
論文 参考訳(メタデータ) (2020-12-23T13:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。