論文の概要: Large Language Models are Miscalibrated In-Context Learners
- arxiv url: http://arxiv.org/abs/2312.13772v3
- Date: Wed, 21 May 2025 20:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.575448
- Title: Large Language Models are Miscalibrated In-Context Learners
- Title(参考訳): 大規模言語モデルはコンテキスト内学習者の微調整である
- Authors: Chengzu Li, Han Zhou, Goran Glavaš, Anna Korhonen, Ivan Vulić,
- Abstract要約: 本研究では,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
低リソース環境における全ての学習手法に誤校正問題が存在することを観察する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
- 参考スコア(独自算出の注目度): 22.30783674111999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When adapting ICL with or without fine-tuning, we are curious about whether the instruction-tuned language model is able to achieve well-calibrated results without suffering from the problem of overconfidence (i.e., miscalibration) considering its strong instruction following ability, especially in such limited data setups. In this work, we deliver an in-depth analysis of the behavior across different choices of learning methods from the perspective of both performance and calibration. Through extensive controlled experiments, we observe that the miscalibration problem exists across all learning methods in low-resource setups. To achieve simultaneous gain for both in-task performance and calibration, we then study the potential of self-ensembling applied at different modeling stages (e.g., variations of in-context examples or variations in prompts or different ensembling strategies) to make the predictions more calibrated and have comparable or even better performance. We find that self-ensembling with max probability produces robust and calibrated predictions. Our work reveals the potential calibration problem of using ICL despite the improvements in task performance and sheds light on which learning paradigm to choose. We also provide practical guidelines for choosing learning paradigms depending on whether the data has been seen by the model before and a worthwhile solution via self-ensembling on how to enhance both task performance and calibration of LMs, which we hope could encourage further study.
- Abstract(参考訳): ICLに微調整を施す場合、特にそのような限られたデータ設定において、強い指示に従う能力を考慮して、過信(誤校正)の問題に悩まされることなく、インストラクションチューニング言語モデルが十分に校正された結果が得られるかどうかを疑問視する。
本研究では,評価と校正の両面から,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
広範に制御された実験を通して、低リソース環境における全ての学習方法に誤校正問題が存在することが観察された。
タスク内性能とキャリブレーションの両方を同時に獲得するために、異なるモデリング段階(例えば、インコンテキストの例のバリエーションやプロンプトのバリエーション、あるいは異なるアンサンブル戦略のバリエーション)で適用される自己認識の可能性を調べ、予測をよりキャリブレーションし、比較や性能が向上する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
我々の研究は、タスク性能の改善にもかかわらず、ICLを使用する際のキャリブレーションの潜在的な問題を明らかにし、どの学習パラダイムを選択するかに光を当てる。
また,学習パラダイムを選択するための実践的ガイドラインとして,モデルが以前データを見たかどうかに応じて,タスク性能とLMのキャリブレーションの両面での自己理解による価値あるソリューションを提案する。
関連論文リスト
- Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。
平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文 参考訳(メタデータ) (2025-04-03T16:17:56Z) - Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles [4.477423478591491]
Calib-nは、信頼度推定のための補助モデルをトレーニングする新しいフレームワークである。
補助的なモデルベース手法では,数発のプロンプトが最も有効であることが判明した。
論文 参考訳(メタデータ) (2025-01-07T18:48:42Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - A Study on the Calibration of In-context Learning [27.533223818505682]
In-context Learning (ICL) は静的言語モデルに適切なプロンプトで適応するための一般的な手法である。
また,ICL例の増加に伴い,モデルの誤校正が向上し,キャリブレーションの精度が向上することが確認された。
再校正手法について検討し,スケーリング結合キャリブレータが一貫した校正誤差を低減できることを見出した。
論文 参考訳(メタデータ) (2023-12-07T03:37:39Z) - Latent Alignment with Deep Set EEG Decoders [44.128689862889715]
本稿では,脳波伝達学習大会のベンチマークで優勝した潜在アライメント手法を紹介する。
我々は,その定式化を,与えられた被験者の試行セットに適用したディープセットとして提示する。
実験の結果,深層学習モデルにおける後段の統計的分布アライメントの実行は,分類精度に有益であることが示唆された。
論文 参考訳(メタデータ) (2023-11-29T12:40:45Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Mitigating Gradient Bias in Multi-objective Learning: A Provably Convergent Stochastic Approach [38.76462300149459]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。
本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文 参考訳(メタデータ) (2022-10-23T05:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。