論文の概要: Automatic Calibration and Error Correction for Generative Large Language
Models via Pareto Optimal Self-Supervision
- arxiv url: http://arxiv.org/abs/2306.16564v3
- Date: Thu, 26 Oct 2023 18:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:30:24.451076
- Title: Automatic Calibration and Error Correction for Generative Large Language
Models via Pareto Optimal Self-Supervision
- Title(参考訳): pareto optimal self-supervision による生成大言語モデルの自動校正と誤り訂正
- Authors: Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon
- Abstract要約: 大規模言語モデル(LLM)は、広範囲のアプリケーションで顕著な機能を示しているが、未処理や誤応答の低減は依然として大きな成長領域である。
本稿では,LLM応答の系統的調整に利用可能なプログラム制御を活用できるフレームワークを提案する。
バイオメディカルおよび一般領域における標準的関係抽出および分類タスクの実験は、提案したリスクスコアが実際のLCM誤差率と高い相関があることを実証している。
- 参考スコア(独自算出の注目度): 13.348376207148789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Large language models (LLMs) have demonstrated remarkable
capabilities for a wide range of applications, but reducing ungrounded or
erroneous responses remains a major growth area. Unlike task-specific models,
there lack an effective method to calibrate the confidence level of LLM
responses to indicate potential errors and facilitate human-in-the-loop
verification. An important source of calibration stems from expert-stipulated
programmatic supervision, which is often available at low cost but has its own
limitations such as noise and coverage. In this paper, we introduce a Pareto
optimal self-supervision framework that can leverage available programmatic
supervision to systematically calibrate LLM responses by producing a risk score
for every LLM response, without any additional manual efforts. This is
accomplished by learning a harmonizer model to align with LLM output as well as
other weak supervision sources. The model assigns higher risk scores to more
uncertain LLM responses and facilitate error correction. Experiments on
standard relation extraction and classification tasks in biomedical and general
domains demonstrate that the proposed risk score is highly correlated with the
actual LLM error rate. By using a dynamic prompting strategy based on the risk
score, we observed significant accuracy improvement for off-the-shelf LLMs,
boosting GPT-3.5 results past state-of-the-art (SOTA) weak supervision model
and GPT-4 results past SOTA supervised results on challenging evaluation
datasets.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)は、広範囲のアプリケーションで顕著な機能を示しているが、未処理や誤応答の低減は依然として大きな成長領域である。
タスク固有のモデルとは異なり、潜在的なエラーを示すためにLCM応答の信頼性レベルを調整し、ループ内検証を容易にする効果的な方法がない。
キャリブレーションの重要な情報源は、しばしば低コストで利用できるが、ノイズやカバレッジといった独自の制限がある専門家が選択したプログラムの監督に由来する。
本稿では,利用可能なプログラム的監督を活用し,追加の手動作業なしに,llm応答毎にリスクスコアを作成することで,llm応答を体系的に校正することができるpareto最適自己スーパービジョンフレームワークを提案する。
これはllm出力や他の弱い監督源に合わせて調和子モデルを学習することで実現される。
このモデルは、より不確定なllm応答により高いリスクスコアを割り当て、エラー訂正を容易にする。
バイオメディカルおよび一般領域における標準関係抽出および分類タスクの実験により、提案したリスクスコアが実際のLCM誤差率と高い相関性を示す。
リスクスコアに基づく動的プロンプト戦略を用いることで,既製のLCMの精度向上,SOTA(State-of-the-art)弱監視モデルによるGPT-3.5結果,SOTAが監督する評価データセットによるGPT-4結果の精度向上を実現した。
関連論文リスト
- Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。
重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。
次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models [4.4849006637642805]
抽出された情報におけるノイズや誤差の存在は、LLMの堅牢性に課題をもたらす。
ノイズの多い外部情報によるモデル精度低下の問題に対処するため,データ拡張に基づく微調整手法を提案する。
我々は既存のLCMと我々のアプローチの両方で実験を行い、その結果をGPT-4で評価した。
論文 参考訳(メタデータ) (2024-09-09T07:32:30Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。