論文の概要: LitCab: Lightweight Language Model Calibration over Short- and Long-form
Responses
- arxiv url: http://arxiv.org/abs/2310.19208v2
- Date: Wed, 13 Mar 2024 05:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:28:07.395772
- Title: LitCab: Lightweight Language Model Calibration over Short- and Long-form
Responses
- Title(参考訳): LitCab: 短期および長期にわたる軽量言語モデルの校正
反応
- Authors: Xin Liu, Muhammad Khalifa, Lu Wang
- Abstract要約: 本稿では,入力テキストの表現とバイアス項の予測を行う単一線形層からなる軽量キャリブレーション機構LitCabを提案する。
評価のために、8つのテキスト生成タスクからなるベンチマークであるCaTを構築し、短いフレーズから段落までの応答をカバーする。
Llama2-7BでLitCabをテストし、すべてのタスクのキャリブレーションを改善し、平均ECEスコアを最大30%削減する。
- 参考スコア(独自算出の注目度): 14.77013588561901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A model is considered well-calibrated when its probability estimate aligns
with the actual likelihood of the output being correct. Calibrating language
models (LMs) is crucial, as it plays a vital role in detecting and mitigating
hallucinations of LMs as well as building more trustworthy models. However,
standard calibration techniques may not be suited for LM calibration. For
instance, post-processing methods such as temperature scaling do not reorder
the candidate generations. On the other hand, training-based methods require
fine-tuning the entire model, which is impractical for LMs of large scale. We
present LitCab, a lightweight calibration mechanism consisting of a single
linear layer that takes the input text representation and predicts a bias term,
which is then added to the LM output logits. LitCab improves model calibration
by only adding < 2% of the original model parameters. For evaluation, we
construct CaT, a benchmark consisting of eight text generation tasks, covering
responses ranging from short phrases to paragraphs. We test LitCab with
Llama2-7B, where it improves calibration across all tasks, reducing the average
ECE score by as large as 30%. We further conduct a comprehensive evaluation
with multiple popular open-sourced LMs from GPT and LLaMA families, yielding
the following key findings: (i) Larger models within the same family exhibit
better calibration on tasks with short generation tasks, but not necessarily
for longer ones. (ii) GPT-family models show superior calibration compared to
LLaMA, Llama2, and Vicuna models, despite having much fewer parameters. (iii)
Fine-tuning pretrained model (e.g., LLaMA) with samples of limited purpose
(e.g., conversations) may lead to worse calibration, highlighting the
importance of fine-tuning setups for calibrating LMs.
- Abstract(参考訳): モデルは、その確率推定が正しい出力の実際の可能性と一致したとき、よく校正されると考えられる。
言語モデル(LM)の校正は、LMの幻覚を検出し緩和するだけでなく、より信頼できるモデルを構築する上でも重要な役割を担っている。
しかし、標準校正技術はLM校正には適していない。
例えば、温度スケーリングのような後処理の方法は、候補世代を順序付けしない。
一方、トレーニングベースの手法では、大規模なLMでは実用的ではないモデル全体を微調整する必要がある。
本稿では,入力テキストの表現とバイアス項の予測を行う単一線形層からなる軽量キャリブレーション機構LitCabについて述べる。
LitCabはモデルのキャリブレーションを改善し、元のモデルのパラメータの2%しか追加しない。
評価のために、8つのテキスト生成タスクからなるベンチマークであるCaTを構築し、短いフレーズから段落までの応答をカバーする。
Llama2-7BでLitCabをテストし、すべてのタスクのキャリブレーションを改善し、平均ECEスコアを最大30%削減する。
我々はさらに、GPTおよびLLaMAファミリーから複数の人気のあるオープンソースLMを用いて包括的な評価を行い、以下の重要な知見を得た。
(i)同族内の大型モデルでは、短命なタスクのキャリブレーションが向上するが、必ずしも長命なタスクでは不十分である。
(II) GPT- familyモデルでは, LLaMA, Llama2, Vicunaモデルに比べ, パラメータが少ないにもかかわらず, キャリブレーションが優れている。
三 限定目的(例えば会話)のサンプルを用いた微調整事前訓練モデル(例えば、LLaMA)は、校正が悪化し、微調整装置がLMの校正に重要であることを強調する。
関連論文リスト
- Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs [27.38239289662178]
学習後量子化(PTQ)は大規模言語モデル(LLM)の効率を向上させる
PTQにおける校正セットの役割,特に隠れ活性化に対する効果について検討する。
我々の分析では、利用可能なモデル間で量子化の有効性に顕著なコントラストが示される。
論文 参考訳(メタデータ) (2024-05-31T14:24:33Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - Calibration in Deep Learning: A Survey of the State-of-the-Art [7.6087138685470945]
ディープニューラルネットワークのキャリブレーションは、安全クリティカルなアプリケーションにおいて、信頼性が高く堅牢なAIシステムを構築する上で重要な役割を果たす。
近年の研究では、予測能力の高い現代のニューラルネットワークは、キャリブレーションが不十分であり、信頼性の低いモデル予測を生成することが示されている。
論文 参考訳(メタデータ) (2023-08-02T15:28:10Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - On the Calibration of Massively Multilingual Language Models [15.373725507698591]
超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。
まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。
また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-10-21T21:41:56Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。