論文の概要: LitCab: Lightweight Calibration of Language Models on Outputs of Varied
Lengths
- arxiv url: http://arxiv.org/abs/2310.19208v1
- Date: Mon, 30 Oct 2023 00:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 13:48:02.249076
- Title: LitCab: Lightweight Calibration of Language Models on Outputs of Varied
Lengths
- Title(参考訳): litcab: さまざまな長さの出力に対する言語モデルの軽量キャリブレーション
- Authors: Xin Liu, Muhammad Khalifa, Lu Wang
- Abstract要約: 言語モデル(LM)の校正は、幻覚の検出と緩和において重要な役割を担っている。
一般的なニューラルモデル校正技術は、答えの正しさを識別する柔軟性の欠如のため、LMに適していない。
入力テキスト表現とLM出力ロジットを操作する単一の線形層からなる軽量キャリブレーション機構であるLitCabを提案する。
- 参考スコア(独自算出の注目度): 14.77013588561901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A model is considered well-calibrated when its probability estimate aligns
with the actual likelihood of the output being correct. Calibrating language
models (LMs) is crucial, as it plays a vital role in detecting and mitigating
hallucinations, a common issue of LMs, as well as building more trustworthy
models. Yet, popular neural model calibration techniques are not well-suited
for LMs due to their lack of flexibility in discerning answer correctness and
their high computational costs. For instance, post-processing methods like
temperature scaling are often unable to reorder the candidate generations.
Moreover, training-based methods require finetuning the entire model, which is
impractical due to the increasing sizes of modern LMs. In this paper, we
present LitCab, a lightweight calibration mechanism consisting of a single
linear layer taking the input text representation and manipulateing the LM
output logits. LitCab improves model calibration by only adding < 2% of the
original model parameters. For evaluation, we construct CaT, a benchmark
consisting of 7 text generation tasks, covering responses ranging from short
phrases to paragraphs. We test LitCab with Llama2-7B, where it improves
calibration across all tasks, by reducing the average ECE score by 20%. We
further conduct a comprehensive evaluation with 7 popular open-sourced LMs from
GPT and LLaMA families, yielding the following key findings: (1) Larger models
within the same family exhibit better calibration on tasks with short
generation tasks, but not necessarily for longer ones. (2) GPT-family models
show superior calibration compared to LLaMA, Llama2 and Vicuna models despite
having much fewer parameters. (3) Finetuning pretrained model (e.g., LLaMA)
with samples of limited purpose (e.g., conversations) may lead to worse
calibration, highlighting the importance of finetuning setups for calibrating
LMs.
- Abstract(参考訳): モデルは、その確率推定が実際の出力が正しい可能性に合致するときによく調整されたと見なされる。
lmsの一般的な問題である幻覚の検出と緩和において重要な役割を果たすため、言語モデル(lms)の校正は不可欠である。
しかし、回答の正しさと高い計算コストを識別する柔軟性の欠如により、一般的なニューラルネットワークキャリブレーション技術はLMに適していない。
例えば、温度スケーリングのような後処理方法は、しばしば候補世代を再順序付けできない。
さらに、トレーニングベースの手法ではモデル全体を微調整する必要がある。
本稿では,入力テキストの表現とlm出力ロジットの操作を行う単一の線形層からなる軽量キャリブレーション機構であるlitcabを提案する。
LitCabはモデルのキャリブレーションを改善し、元のモデルのパラメータの2%しか追加しない。
評価のために、7つのテキスト生成タスクからなるベンチマークであるCaTを構築し、短いフレーズから段落までの応答をカバーする。
Llama2-7BでLitCabをテストし、平均ECEスコアを20%削減することで、全タスクのキャリブレーションを改善する。
さらに, GPT と LLaMA の7つのオープンソース LM を総合的に評価した結果,(1) 同じ家族内の大規模モデルでは, 短時間のタスクではキャリブレーションが向上するが, 必ずしも長いタスクでは不十分であることがわかった。
2) LLaMA, Llama2, Vicunaモデルと比較して, パラメータが少ないにもかかわらず, GPTモデルの方がキャリブレーションが優れている。
(3) 限定目的(会話など)のサンプルを用いたファインチューニング事前学習モデル(LLaMAなど)は、キャリブレーションが悪化する可能性があり、LMのキャリブレーションにおけるファインチューニング設定の重要性を強調している。
関連論文リスト
- Calibrating Language Models with Adaptive Temperature Scaling [58.056023173579625]
本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。
ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
論文 参考訳(メタデータ) (2024-09-29T22:54:31Z) - Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。
本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2024-08-31T05:12:36Z) - Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs [27.38239289662178]
学習後量子化(PTQ)は大規模言語モデル(LLM)の効率を向上させる
PTQにおける校正セットの役割,特に隠れ活性化に対する効果について検討する。
我々の分析では、利用可能なモデル間で量子化の有効性に顕著なコントラストが示される。
論文 参考訳(メタデータ) (2024-05-31T14:24:33Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - On the Calibration of Massively Multilingual Language Models [15.373725507698591]
超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。
まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。
また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-10-21T21:41:56Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。