論文の概要: Automatic Calibration and Error Correction for Large Language Models via
Pareto Optimal Self-Supervision
- arxiv url: http://arxiv.org/abs/2306.16564v1
- Date: Wed, 28 Jun 2023 21:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:37:51.230808
- Title: Automatic Calibration and Error Correction for Large Language Models via
Pareto Optimal Self-Supervision
- Title(参考訳): pareto optimal self-supervision による大規模言語モデルの自動校正と誤り訂正
- Authors: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
- Abstract要約: 大規模言語モデル(LLM)は、広範囲のアプリケーションに対して、目覚ましい能力を発揮している。
精度は依然として大きな成長領域であり、特にバイオメディシンのようなミッションクリティカルな領域では顕著である。
LLM応答に対する信頼度を校正する効果的な方法は、エラーを自動的に検出し、ループ内検証を容易にするために不可欠である。
- 参考スコア(独自算出の注目度): 8.885829189810195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities out of
box for a wide range of applications, yet accuracy still remains a major growth
area, especially in mission-critical domains such as biomedicine. An effective
method to calibrate the confidence level on LLM responses is essential to
automatically detect errors and facilitate human-in-the-loop verification. An
important source of calibration signals stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every response, without any additional manual efforts. This is accomplished
by learning a harmonizer model to align LLM output with other available
supervision sources, which would assign higher risk scores to more uncertain
LLM responses and facilitate error correction. Experiments on standard relation
extraction tasks in biomedical and general domains demonstrate the promise of
this approach, with our proposed risk scores highly correlated with the real
error rate of LLMs. For the most uncertain test instances, dynamic prompting
based on our proposed risk scores results in significant accuracy improvement
for off-the-shelf LLMs, boosting GPT-3 results past state-of-the-art (SOTA)
weak supervision and GPT-4 results past SOTA supervised results on challenging
evaluation datasets.
- Abstract(参考訳): 大規模言語モデル (LLM) は、広範囲の応用において目覚ましい能力を示してきたが、精度は依然として大きな成長領域であり、特にバイオメディシンのようなミッションクリティカルな領域では顕著である。
LLM応答に対する信頼度を校正する効果的な方法は、エラーを自動的に検出し、ループ内検証を容易にするために不可欠である。
キャリブレーション信号の重要な源は、低コストで利用可能であるが、ノイズやカバレッジといった独自の制限がある、専門家によるプログラム的監督にある。
本稿では,利用可能なプログラム的監督を活用し,追加の手動作業なしに,各応答に対するリスクスコアを作成することで,llm応答を体系的に校正することができるparetoの最適自己スーパービジョンフレームワークを提案する。
これは、より不確実なLSM応答により高いリスクスコアを割り当て、エラー修正を容易にする、他の利用可能な監視源とLLM出力を一致させるハーモニザモデルを学ぶことで達成される。
生体医学領域および一般領域における標準関係抽出タスクの実験により,本手法の有効性が示され,本手法のリスクスコアはllmsの実誤差率と高い相関を示した。
最も不確実なテスト例では,提案したリスクスコアに基づく動的プロンプトにより,既製のLCMの精度が大幅に向上し,SOTA(State-of-the-art)の監督が弱く,SOTAの監督が難しい評価データセットにGPT-4の結果が及んだ。
関連論文リスト
- Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。
重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。
次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models [4.4849006637642805]
抽出された情報におけるノイズや誤差の存在は、LLMの堅牢性に課題をもたらす。
ノイズの多い外部情報によるモデル精度低下の問題に対処するため,データ拡張に基づく微調整手法を提案する。
我々は既存のLCMと我々のアプローチの両方で実験を行い、その結果をGPT-4で評価した。
論文 参考訳(メタデータ) (2024-09-09T07:32:30Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。