論文の概要: Thermometer: Towards Universal Calibration for Large Language Models
- arxiv url: http://arxiv.org/abs/2403.08819v1
- Date: Tue, 20 Feb 2024 04:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 08:06:28.798393
- Title: Thermometer: Towards Universal Calibration for Large Language Models
- Title(参考訳): 温度計:大規模言語モデルの普遍的校正に向けて
- Authors: Maohao Shen, Subhro Das, Kristjan Greenewald, Prasanna Sattigeri, Gregory Wornell, Soumya Ghosh,
- Abstract要約: 大規模言語モデル(LLM)に適したキャリブレーション手法であるOMETERを提案する。
OMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。
計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。
- 参考スコア(独自算出の注目度): 22.03852781949075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the issue of calibration in large language models (LLM). Recent studies have found that common interventions such as instruction tuning often result in poorly calibrated LLMs. Although calibration is well-explored in traditional applications, calibrating LLMs is uniquely challenging. These challenges stem as much from the severe computational requirements of LLMs as from their versatility, which allows them to be applied to diverse tasks. Addressing these challenges, we propose THERMOMETER, a calibration approach tailored to LLMs. THERMOMETER learns an auxiliary model, given data from multiple tasks, for calibrating a LLM. It is computationally efficient, preserves the accuracy of the LLM, and produces better-calibrated responses for new tasks. Extensive empirical evaluations across various benchmarks demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるキャリブレーションの問題について考察する。
近年の研究では、インストラクションチューニングのような一般的な介入は、しばしば校正の不十分なLLMをもたらすことが判明している。
キャリブレーションは従来の用途ではよく研究されているが、LCMのキャリブレーションは独特な課題である。
これらの課題は、LLMの厳密な計算要件と、その汎用性から生じるものであり、多様なタスクに適用することができる。
これらの課題に対処するため,LLMに適したキャリブレーション手法であるTheRMOMETERを提案する。
TheRMOMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。
計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。
提案手法の有効性を,様々なベンチマークで評価した。
関連論文リスト
- CorrectionLM: Self-Corrections with SLM for Dialogue State Tracking [16.057622631156164]
大規模言語モデル (LLM) はフィードバックや改善を通じて自己改善能力を示すが、現在の小言語モデル (SLM) はこの分野では限られた成功を収めている。
CORRECTIONLMは、SLMがLLMを介さずにインコンテキストの例を使って自己修正できる新しい補正フレームワークである。
論文 参考訳(メタデータ) (2024-10-23T18:27:16Z) - Atomic Calibration of LLMs in Long-Form Generations [46.01229352035088]
大型言語モデル(LLM)は幻覚に悩まされることが多く、現実世界のアプリケーションにとって大きな課題となっている。
我々は,原子の反応を原子のクレームに分解することで,ファクトリティのキャリブレーションをきめ細かなレベルで評価する新しい手法である原子キャリブレーションを導入する。
実験の結果,原子キャリブレーションは長文生成に適しており,マクロキャリブレーションの結果も改善できることがわかった。
論文 参考訳(メタデータ) (2024-10-17T06:09:26Z) - Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。
本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2024-08-31T05:12:36Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。