論文の概要: A Comprehensive Evaluation of LLM Unlearning Robustness under Multi-Turn Interaction
- arxiv url: http://arxiv.org/abs/2603.00823v1
- Date: Sat, 28 Feb 2026 22:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.374202
- Title: A Comprehensive Evaluation of LLM Unlearning Robustness under Multi-Turn Interaction
- Title(参考訳): マルチターンインタラクションによるLLM未学習ロバスト性の包括的評価
- Authors: Ruihao Pan, Suhang Wang,
- Abstract要約: 対話型環境での学習が安定しているかどうかを2つの共通相互作用パターンを用いて検討する。
静的評価で忘れられた知識は、しばしば相互作用によって回収される。
- 参考スコア(独自算出の注目度): 28.143025731350352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to remove the influence of specific training data from pre-trained models without retraining from scratch, and is increasingly important for large language models (LLMs) due to safety, privacy, and legal concerns. Although prior work primarily evaluates unlearning in static, single-turn settings, forgetting robustness under realistic interactive use remains underexplored. In this paper, we study whether unlearning remains stable in interactive environments by examining two common interaction patterns: self-correction and dialogue-conditioned querying. We find that knowledge appearing forgotten in static evaluation can often be recovered through interaction. Although stronger unlearning improves apparent robustness, it often results in behavioral rigidity rather than genuine knowledge erasure. Our findings suggest that static evaluation may overestimate real-world effectiveness and highlight the need for ensuring stable forgetting under interactive settings.
- Abstract(参考訳): 機械学習は、スクラッチからトレーニングすることなく、トレーニング済みモデルから特定のトレーニングデータの影響を取り除くことを目的としており、安全、プライバシー、法的懸念から、大規模言語モデル(LLM)にとってますます重要になっている。
従来の研究は、静的なシングルターンの設定で未学習を主に評価していたが、現実的なインタラクティブな使用下での堅牢さを忘れることはまだ探索されていない。
本稿では,対話型環境での非学習が安定しているかどうかを,自己訂正と対話型問合せという2つの共通相互作用パターンを用いて検討する。
静的評価で忘れられた知識は、しばしば相互作用によって回収される。
より強いアンラーニングは明らかな堅牢性を改善するが、真の知識の消去よりも行動的な剛性をもたらすことが多い。
以上の結果から,静的評価は実世界の有効性を過大評価する可能性があり,対話的環境下での安定的忘れを確実にする必要性が浮き彫りになる可能性が示唆された。
関連論文リスト
- Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs [0.1784233255402269]
機械学習は、モデルから特定のトレーニングデータの影響を、完全な再トレーニングを必要とせずに取り除くことを目的としている。
未学習データの微妙な残差を検出するための新しい評価手法であるREMINDを提案する。
未学習のデータは、より平坦で、より急なロスランドスケープをもたらす一方、保持または関連のないデータは、より鋭く、より揮発性のあるパターンを示す。
論文 参考訳(メタデータ) (2025-11-06T09:58:19Z) - Edu-EmotionNet: Cross-Modality Attention Alignment with Temporal Feedback Loops [0.0]
Edu-EmotionNetは、時間的感情の進化と、ロバストな感情認識のためのモダリティ信頼性を共同でモデル化する新しいフレームワークである。
EmotionNetは最先端のパフォーマンスを実現し、欠落や騒々しいモダリティに対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2025-10-09T20:33:52Z) - Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。
評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文 参考訳(メタデータ) (2025-05-31T19:43:00Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - Robustness Evaluation of Offline Reinforcement Learning for Robot Control Against Action Perturbations [4.849820402342814]
オフライン強化学習は特に ロボット制御の応用に有望です
ロボットの関節アクチュエータ障害のような現実世界の課題に対する堅牢性は、依然として重要な関心事である。
本研究は,OpenAI Gymの脚ロボットを用いた既存のオフライン強化学習手法のロバスト性を評価する。
論文 参考訳(メタデータ) (2024-12-25T05:02:22Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。