論文の概要: Atomic Calibration of LLMs in Long-Form Generations
- arxiv url: http://arxiv.org/abs/2410.13246v1
- Date: Thu, 17 Oct 2024 06:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:01.846695
- Title: Atomic Calibration of LLMs in Long-Form Generations
- Title(参考訳): 長寿命世代におけるLDMの原子校正
- Authors: Caiqi Zhang, Ruihan Yang, Zhisong Zhang, Xinting Huang, Sen Yang, Dong Yu, Nigel Collier,
- Abstract要約: 大型言語モデル(LLM)は幻覚に悩まされることが多く、現実世界のアプリケーションにとって大きな課題となっている。
我々は,原子の反応を原子のクレームに分解することで,ファクトリティのキャリブレーションをきめ細かなレベルで評価する新しい手法である原子キャリブレーションを導入する。
実験の結果,原子キャリブレーションは長文生成に適しており,マクロキャリブレーションの結果も改善できることがわかった。
- 参考スコア(独自算出の注目度): 46.01229352035088
- License:
- Abstract: Large language models (LLMs) often suffer from hallucinations, posing significant challenges for real-world applications. Confidence calibration, which estimates the underlying uncertainty of model predictions, is essential to enhance the LLMs' trustworthiness. Existing research on LLM calibration has primarily focused on short-form tasks, providing a single confidence score at the response level (macro calibration). However, this approach is insufficient for long-form generations, where responses often contain more complex statements and may include both accurate and inaccurate information. Therefore, we introduce atomic calibration, a novel approach that evaluates factuality calibration at a fine-grained level by breaking down long responses into atomic claims. We classify confidence elicitation methods into discriminative and generative types and demonstrate that their combination can enhance calibration. Our extensive experiments on various LLMs and datasets show that atomic calibration is well-suited for long-form generation and can also improve macro calibration results. Additionally, atomic calibration reveals insightful patterns in LLM confidence throughout the generation process.
- Abstract(参考訳): 大型言語モデル(LLM)は幻覚に悩まされることが多く、現実世界のアプリケーションにとって大きな課題となっている。
モデル予測の不確実性を推定する信頼性校正は、LLMの信頼性を高めるために不可欠である。
LLMキャリブレーションに関する既存の研究は、主に短期的なタスクに焦点を当てており、応答レベル(マクロキャリブレーション)において単一の信頼スコアを提供する。
しかし、この手法は長文世代では不十分であり、応答はより複雑な文を含むことが多く、正確な情報と不正確な情報の両方を含むことがある。
そこで本研究では,長い応答を原子クレームに分解することで,ファクトリティのキャリブレーションをきめ細かなレベルで評価する新しい手法である原子キャリブレーションを導入する。
我々は,信頼度評価手法を識別型と生成型に分類し,それらの組み合わせが校正を促進できることを示す。
各種LLMおよびデータセットに関する広範な実験により、原子キャリブレーションは長大な生成に適しており、マクロキャリブレーションの結果も改善可能であることが示された。
さらに、原子キャリブレーションにより、生成プロセス全体を通してLLMの信頼性に関する洞察に富んだパターンが明らかになる。
関連論文リスト
- Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。
LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。
本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:45:35Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Thermometer: Towards Universal Calibration for Large Language Models [22.03852781949075]
大規模言語モデル(LLM)に適したキャリブレーション手法であるOMETERを提案する。
OMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。
計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。
論文 参考訳(メタデータ) (2024-02-20T04:13:48Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - A Study on the Calibration of In-context Learning [27.533223818505682]
In-context Learning (ICL) は静的言語モデルに適切なプロンプトで適応するための一般的な手法である。
また,ICL例の増加に伴い,モデルの誤校正が向上し,キャリブレーションの精度が向上することが確認された。
再校正手法について検討し,スケーリング結合キャリブレータが一貫した校正誤差を低減できることを見出した。
論文 参考訳(メタデータ) (2023-12-07T03:37:39Z) - On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。
構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。
我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文 参考訳(メタデータ) (2023-11-22T08:57:55Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。