論文の概要: FROC: A Unified Framework with Risk-Optimized Control for Machine Unlearning in LLMs
- arxiv url: http://arxiv.org/abs/2512.13337v1
- Date: Mon, 15 Dec 2025 13:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.68508
- Title: FROC: A Unified Framework with Risk-Optimized Control for Machine Unlearning in LLMs
- Title(参考訳): FROC:LLMにおける機械学習のためのリスク最適化制御を備えた統一フレームワーク
- Authors: Si Qi Goh, Yongsen Zheng, Ziyao Liu, Sami Hormi, Kwok-Yan Lam,
- Abstract要約: 大規模言語モデル(LLM)における機械学習のためのリスクd制御を用いた統合フレームワークFROCを提案する。
FROCは、非学習行動におけるユーザが特定したリスク予算を表現するコンフォメーションスタイルのリスクコントロールの定式化を中心に構築されている。
複数のLLM MU法による実験により、FROCは安定で解釈可能なリスクランドスケープを生成することが示された。
- 参考スコア(独自算出の注目度): 28.687949604557986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning (MU) seeks to eliminate the influence of specific training examples from deployed models. As large language models (LLMs) become widely used, managing risks arising from insufficient forgetting or utility loss is increasingly crucial. Current MU techniques lack effective mechanisms for evaluating and controlling these risks, hindering the selection of strategies that appropriately balance safety and utility, and raising trust concerns surrounding the "right to be forgotten." To address these issues, we propose FROC, a unified framework with Risk-Optimized Control for machine unlearning in LLMs. FROC is built around a conformal-style risk-control formulation that expresses a user-specified risk budget on unlearning behavior. This probability-based constraint enables FROC to compare MU strategies, identify feasible operating regions, and guide hyperparameter selection according to desired trade-offs between forgetting sufficiency and utility preservation. To operationalize this constraint, FROC introduces a smoothly varying continuous risk model that aggregates forgetting deficiency and utility degradation into a single configuration-level score. Building on conformal risk analysis, FROC computes (1) the Conformal Unlearning Risk (CUR), a data-driven estimated value on the probability that forgotten samples continue to influence model predictions, and (2) risk-controlled configuration sets, which identify unlearning hyperparameters that are valid under the specified risk budget. Experiments across multiple LLM MU methods demonstrate that FROC produces stable, interpretable risk landscapes and reveals consistent relationships between unlearning configurations, semantic shift, and utility impact. FROC reframes MU as a controllable, risk-aware process and offers a practical foundation for managing unlearning behavior in large-scale LLM deployments.
- Abstract(参考訳): マシン・アンラーニング(MU)は、デプロイされたモデルから特定のトレーニング例の影響を排除することを目的としている。
大規模言語モデル(LLM)が広く使われるようになるにつれて、忘れることの不足やユーティリティ損失によるリスク管理がますます重要になっている。
現在のMU技術では、これらのリスクを評価し、制御するための効果的なメカニズムが欠如しており、安全と実用性を適切にバランスさせる戦略の選択を妨げ、そして「忘れられる権利」を取り巻く信頼の懸念を高めている。
これらの問題に対処するため、LLMにおける機械学習のためのリスク最適化制御を用いた統合フレームワークFROCを提案する。
FROCは、非学習行動におけるユーザが特定したリスク予算を表現するコンフォメーションスタイルのリスクコントロールの定式化を中心に構築されている。
この確率ベースの制約により、FROCはMU戦略の比較、実行可能な動作領域の特定、および、有効性を忘れることとユーティリティ保存とのトレードオフに応じて、ハイパーパラメータ選択をガイドすることができる。
この制約を運用するために、FROCはスムーズに変化する継続的リスクモデルを導入している。
FROCは,(1)コンフォーマル・アンラーニング・リスク(CUR, Conformal Unlearning Risk)を計算し,(2)モデル予測に影響を与え続ける確率をデータ駆動で推定し,(2)特定のリスク予算の下で有効な未学習ハイパーパラメータを識別するリスク制御構成セットを算出した。
複数のLLM MU手法を用いた実験により、FROCは安定的で解釈可能なリスクランドスケープを生成し、未学習の構成、セマンティックシフト、ユーティリティインパクトの一貫性のある関係を明らかにする。
FROCはMUを制御可能なリスク対応プロセスとして再編成し、大規模LLMデプロイメントにおける未学習の振る舞いを管理するための実践的な基盤を提供する。
関連論文リスト
- Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T09:16:26Z) - Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-03T20:25:41Z) - Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。
我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。
本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-09-16T08:54:59Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。