論文の概要: A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.03523v4
- Date: Tue, 03 Dec 2024 14:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:40.718917
- Title: A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアンラーニングとアライメントの確率論的視点
- Authors: Yan Scholten, Stephan Günnemann, Leo Schwinn,
- Abstract要約: 大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
- 参考スコア(独自算出の注目度): 48.96686419141881
- License:
- Abstract: Comprehensive evaluation of Large Language Models (LLMs) is an open research problem. Existing evaluations rely on deterministic point estimates generated via greedy decoding. However, we find that deterministic evaluations fail to capture the whole output distribution of a model, yielding inaccurate estimations of model capabilities. This is particularly problematic in critical contexts such as unlearning and alignment, where precise model evaluations are crucial. To remedy this, we introduce the first formal probabilistic evaluation framework in LLMs. Namely, we derive novel metrics with high-probability guarantees concerning the output distribution of a model. Our metrics are application-independent and allow practitioners to make more reliable estimates about model capabilities before deployment. Through a case study focused on unlearning, we reveal that deterministic evaluations falsely indicate successful unlearning, whereas our probabilistic evaluations demonstrate that most if not all of the supposedly unlearned information remains accessible in these models. Additionally, we propose a novel unlearning loss based on entropy optimization and adaptive temperature scaling, which significantly improves unlearning in probabilistic settings on recent benchmarks. Our proposed shift from point estimates to probabilistic evaluations of output distributions represents an important step toward comprehensive evaluations of LLMs. Code available at https://github.com/yascho/probabilistic-unlearning.
- Abstract(参考訳): 大規模言語モデル(LLM)の包括的評価はオープンな研究課題である。
既存の評価は、グリーディ復号によって生成される決定論的点推定に依存している。
しかし、決定論的評価では、モデル全体の出力分布を捉えることができず、モデル機能の不正確な推定結果が得られることがわかった。
これは、正確なモデル評価が不可欠であるアンラーニングやアライメントのような重要なコンテキストにおいて特に問題となる。
そこで本研究では,LLMにおける最初の形式的確率的評価フレームワークを提案する。
すなわち、モデルの出力分布に関する高い確率保証を持つ新しいメトリクスを導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
アンラーニングに焦点を当てたケーススタディを通じて、決定論的評価は未学習の成功を誤って示すのに対し、確率論的評価は、未学習と思われる情報が全てではないとしても、これらのモデルでアクセス可能であることを示す。
さらに,エントロピー最適化と適応温度スケーリングに基づく新しいアンラーニング損失を提案する。
提案手法は, 点推定から出力分布の確率的評価へのシフトが, LLMの包括的評価への重要な一歩である。
コードはhttps://github.com/yascho/probabilistic-unlearningで公開されている。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Deep Probability Segmentation: Are segmentation models probability estimators? [0.7646713951724011]
モデルのキャリブレーションへの影響を評価するために,セグメンテーションタスクにキャリブレーション確率推定を適用した。
その結果, キャリブレーションはキャリブレーションが向上するが, 分類タスクに比べ, キャリブレーションの効果は低かった。
また, キャリブレーションの有効性に及ぼすデータセットサイズとビン最適化の影響についても検討した。
論文 参考訳(メタデータ) (2024-09-19T07:52:19Z) - Rethinking Evaluation Metric for Probability Estimation Models Using
Esports Data [8.10304644344495]
確率推定基準が持つべき6つの良い特性の観点で、簡単なが効果的な計量であるバランススコア(英語版)と呼ばれる新しい計量を提案する。
また、一般条件下では、バランススコアが真のキャリブレーション誤差の効果的な近似となることも見出した。
論文 参考訳(メタデータ) (2023-09-12T14:04:12Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Variance based sensitivity analysis for Monte Carlo and importance
sampling reliability assessment with Gaussian processes [0.0]
本稿では,2つの不確実性源に対する故障推定器の感度を定量的に評価する手法を提案する。
この分析により、故障確率推定に関連する全誤差を制御でき、推定の精度基準を提供する。
本手法は, モンテカルロ法と重要サンプリング法の両方で提案され, 希少事象確率の推定を改善することを目的としている。
論文 参考訳(メタデータ) (2020-11-30T17:06:28Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。