論文の概要: A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.03523v2
- Date: Tue, 29 Oct 2024 14:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:50:00.665789
- Title: A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアンラーニングとアライメントの確率論的視点
- Authors: Yan Scholten, Stephan Günnemann, Leo Schwinn,
- Abstract要約: 大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
- 参考スコア(独自算出の注目度): 48.96686419141881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive evaluation of Large Language Models (LLMs) is an open research problem. Existing evaluations rely on deterministic point estimates generated via greedy decoding. However, we find that deterministic evaluations fail to capture the whole output distribution of a model, yielding inaccurate estimations of model capabilities. This is particularly problematic in critical contexts such as unlearning and alignment, where precise model evaluations are crucial. To remedy this, we introduce the first formal probabilistic evaluation framework in LLMs. Namely, we derive novel metrics with high-probability guarantees concerning the output distribution of a model. Our metrics are application-independent and allow practitioners to make more reliable estimates about model capabilities before deployment. Through a case study focused on unlearning, we reveal that deterministic evaluations falsely indicate successful unlearning, whereas our probabilistic evaluations demonstrate that most if not all of the supposedly unlearned information remains accessible in these models. Additionally, we propose a novel unlearning loss based on entropy optimization and adaptive temperature scaling, which significantly improves unlearning in probabilistic settings on recent benchmarks. Our proposed shift from point estimates to probabilistic evaluations of output distributions represents an important step toward comprehensive evaluations of LLMs. Code available at https://github.com/yascho/probabilistic-unlearning
- Abstract(参考訳): 大規模言語モデル(LLM)の包括的評価はオープンな研究課題である。
既存の評価は、グリーディ復号によって生成される決定論的点推定に依存している。
しかし、決定論的評価では、モデル全体の出力分布を捉えることができず、モデル機能の不正確な推定結果が得られることがわかった。
これは、正確なモデル評価が不可欠であるアンラーニングやアライメントのような重要なコンテキストにおいて特に問題となる。
そこで本研究では,LLMにおける最初の形式的確率的評価フレームワークを提案する。
すなわち、モデルの出力分布に関する高い確率保証を持つ新しいメトリクスを導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
アンラーニングに焦点を当てたケーススタディを通じて、決定論的評価は未学習の成功を誤って示すのに対し、確率論的評価は、未学習と思われる情報が全てではないとしても、これらのモデルでアクセス可能であることを示す。
さらに,エントロピー最適化と適応温度スケーリングに基づく新しいアンラーニング損失を提案する。
提案手法は, 点推定から出力分布の確率的評価へのシフトが, LLMの包括的評価への重要な一歩である。
https://github.com/yascho/probabilistic-unlearningで利用可能なコード
関連論文リスト
- Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning [4.185571779339683]
モデルに基づく強化学習では、シミュレーションされた経験は実環境からの経験と同等のものとして扱われることが多い。
モデルベースの更新に対する不確実性を推定するために、最適結果が分布に敏感な推測を必要とすることを示す。
境界ボックス推論は効果的な選択計画を支援することができる。
論文 参考訳(メタデータ) (2024-06-23T04:23:15Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Rethinking Evaluation Metric for Probability Estimation Models Using
Esports Data [8.10304644344495]
確率推定基準が持つべき6つの良い特性の観点で、簡単なが効果的な計量であるバランススコア(英語版)と呼ばれる新しい計量を提案する。
また、一般条件下では、バランススコアが真のキャリブレーション誤差の効果的な近似となることも見出した。
論文 参考訳(メタデータ) (2023-09-12T14:04:12Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Calibration tests beyond classification [30.616624345970973]
ほとんどの教師付き機械学習タスクは、既約予測エラーを被る。
確率論的予測モデルは、妥当な目標に対する信念を表す確率分布を提供することによって、この制限に対処する。
校正されたモデルは、予測が過信でも過信でもないことを保証します。
論文 参考訳(メタデータ) (2022-10-21T09:49:57Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。