論文の概要: A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.03523v6
- Date: Sat, 01 Mar 2025 11:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:11:34.512106
- Title: A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアンラーニングとアライメントの確率論的視点
- Authors: Yan Scholten, Stephan Günnemann, Leo Schwinn,
- Abstract要約: 大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
- 参考スコア(独自算出の注目度): 48.96686419141881
- License:
- Abstract: Comprehensive evaluation of Large Language Models (LLMs) is an open research problem. Existing evaluations rely on deterministic point estimates generated via greedy decoding. However, we find that deterministic evaluations fail to capture the whole output distribution of a model, yielding inaccurate estimations of model capabilities. This is particularly problematic in critical contexts such as unlearning and alignment, where precise model evaluations are crucial. To remedy this, we introduce the first formal probabilistic evaluation framework for LLMs. Namely, we propose novel metrics with high probability guarantees concerning the output distribution of a model. Our metrics are application-independent and allow practitioners to make more reliable estimates about model capabilities before deployment. Our experimental analysis reveals that deterministic evaluations falsely indicate successful unlearning and alignment, whereas our probabilistic evaluations better capture model capabilities. We show how to overcome challenges associated with probabilistic outputs in a case study on unlearning by introducing (1) a novel loss based on entropy optimization, and (2) adaptive temperature scaling. We demonstrate that our approach significantly enhances unlearning in probabilistic settings on recent benchmarks. Overall, our proposed shift from point estimates to probabilistic evaluations of output distributions represents an important step toward comprehensive evaluations of LLMs. Code available at https://www.cs.cit.tum.de/daml/probabilistic-unlearning/.
- Abstract(参考訳): 大規模言語モデル(LLM)の包括的評価はオープンな研究課題である。
既存の評価は、グリーディ復号によって生成される決定論的点推定に依存している。
しかし、決定論的評価では、モデル全体の出力分布を捉えることができず、モデル機能の不正確な推定結果が得られることがわかった。
これは、正確なモデル評価が不可欠であるアンラーニングやアライメントのような重要なコンテキストにおいて特に問題となる。
そこで本稿では, LLM の形式的確率的評価フレームワークについて紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
実験結果から,決定論的評価は未学習とアライメントの成功を示すのに対して,確率論的評価はモデル能力の向上を示すことがわかった。
本研究では,(1)エントロピー最適化に基づく新たな損失,(2)適応的な温度スケーリングを導入することにより,確率的アウトプットに関連する課題を未学習のケーススタディで克服する方法を示す。
提案手法は,近年のベンチマークにおいて,確率的環境下でのアンラーニングを著しく向上させることを示す。
点推定から出力分布の確率的評価へのシフトは,LLMの総合的な評価に向けた重要なステップである。
コードはhttps://www.cs.cit.tum.de/daml/probabilistic-unlearning/で公開されている。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Deep Probability Segmentation: Are segmentation models probability estimators? [0.7646713951724011]
モデルのキャリブレーションへの影響を評価するために,セグメンテーションタスクにキャリブレーション確率推定を適用した。
その結果, キャリブレーションはキャリブレーションが向上するが, 分類タスクに比べ, キャリブレーションの効果は低かった。
また, キャリブレーションの有効性に及ぼすデータセットサイズとビン最適化の影響についても検討した。
論文 参考訳(メタデータ) (2024-09-19T07:52:19Z) - Rethinking Evaluation Metric for Probability Estimation Models Using
Esports Data [8.10304644344495]
確率推定基準が持つべき6つの良い特性の観点で、簡単なが効果的な計量であるバランススコア(英語版)と呼ばれる新しい計量を提案する。
また、一般条件下では、バランススコアが真のキャリブレーション誤差の効果的な近似となることも見出した。
論文 参考訳(メタデータ) (2023-09-12T14:04:12Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Variance based sensitivity analysis for Monte Carlo and importance
sampling reliability assessment with Gaussian processes [0.0]
本稿では,2つの不確実性源に対する故障推定器の感度を定量的に評価する手法を提案する。
この分析により、故障確率推定に関連する全誤差を制御でき、推定の精度基準を提供する。
本手法は, モンテカルロ法と重要サンプリング法の両方で提案され, 希少事象確率の推定を改善することを目的としている。
論文 参考訳(メタデータ) (2020-11-30T17:06:28Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。