論文の概要: On the Calibration of Large Language Models and Alignment
- arxiv url: http://arxiv.org/abs/2311.13240v1
- Date: Wed, 22 Nov 2023 08:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:43:10.130051
- Title: On the Calibration of Large Language Models and Alignment
- Title(参考訳): 大規模言語モデルの校正とアライメントについて
- Authors: Chiwei Zhu, Benfeng Xu, Quan Wang, Yongdong Zhang, Zhendong Mao
- Abstract要約: 信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
- 参考スコア(独自算出の注目度): 63.605099174744865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models attract increasing attention and find widespread
application, concurrent challenges of reliability also arise at the same time.
Confidence calibration, an effective analysis method for gauging the
reliability of deep models, serves as a crucial tool for assessing and
improving their reliability. However, such investigation has been comparatively
underexplored. In this work, we conduct a systematic examination of the
calibration of aligned language models throughout the entire construction
process, including pretraining and alignment training. At each stage, we
investigate how different training settings, such as parameter scales and
training data, affect model calibration. To thoroughly assess model
calibration, we evaluate models on three most concerned aspects: generation,
factuality and understanding. Our work sheds light on whether popular LLMs are
well-calibrated and how the training process influences model calibration.
- Abstract(参考訳): 大きな言語モデルが注目を惹きつけ、広く応用されるようになるにつれ、信頼性に関する同時的課題も同時に発生する。
深いモデルの信頼性を計測する効果的な分析手法である信頼度校正は、信頼性を評価し改善するための重要なツールである。
しかし、その調査は比較的過小評価されている。
本研究では,事前学習やアライメントトレーニングを含む構築プロセス全体を通して,アライメント言語モデルの校正を体系的に検討する。
各段階において,パラメータ尺度やトレーニングデータなど,異なるトレーニング設定がモデルキャリブレーションに与える影響について検討する。
モデルキャリブレーションを徹底的に評価するために,生成,事実性,理解の3つの側面からモデルを評価する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
関連論文リスト
- Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。
LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。
本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:45:35Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Calibration in Deep Learning: A Survey of the State-of-the-Art [7.6087138685470945]
ディープニューラルネットワークのキャリブレーションは、安全クリティカルなアプリケーションにおいて、信頼性が高く堅牢なAIシステムを構築する上で重要な役割を果たす。
近年の研究では、予測能力の高い現代のニューラルネットワークは、キャリブレーションが不十分であり、信頼性の低いモデル予測を生成することが示されている。
論文 参考訳(メタデータ) (2023-08-02T15:28:10Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - On the Importance of Calibration in Semi-supervised Learning [13.859032326378188]
State-of-the-art (SOTA) の半教師付き学習(SSL)手法はラベル付きデータとラベルなしデータの混在を活用することに成功している。
我々は、キャリブレーションを最適化し、標準ビジョンベンチマークでその有効性を実証する新しいSSLモデル群を紹介します。
論文 参考訳(メタデータ) (2022-10-10T15:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。