論文の概要: Selective Forgetting for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.03571v1
- Date: Sat, 04 Apr 2026 03:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.647821
- Title: Selective Forgetting for Large Reasoning Models
- Title(参考訳): 大規模共振モデルのための選択的フォーミング
- Authors: Tuan Le, Wei Qian, Mengdi Huai,
- Abstract要約: 大規模推論モデル(LRM)は、最終的な答えを生成する前に、構造化された思考の連鎖(CoT)を生成する。
著作権や私的コンテンツなどのトレーニングデータにおけるセンシティブな情報の記憶は、倫理的および法的懸念につながっている。
一般的な推論能力を保ちながら、敏感な推論成分を選択的に除去する新しいLRMアンラーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.21783013812524
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Reasoning Models (LRMs) generate structured chains of thought (CoTs) before producing final answers, making them especially vulnerable to knowledge leakage through intermediate reasoning steps. Yet, the memorization of sensitive information in the training data such as copyrighted and private content has led to ethical and legal concerns. To address these issues, selective forgetting (also known as machine unlearning) has emerged as a potential remedy for LRMs. However, existing unlearning methods primarily target final answers and may degrade the overall reasoning ability of LRMs after forgetting. Additionally, directly applying unlearning on the entire CoTs could degrade the general reasoning capabilities. The key challenge for LRM unlearning lies in achieving precise unlearning of targeted knowledge while preserving the integrity of general reasoning capabilities. To bridge this gap, we in this paper propose a novel LRM unlearning framework that selectively removes sensitive reasoning components while preserving general reasoning capabilities. Our approach leverages multiple LLMs with retrieval-augmented generation (RAG) to analyze CoT traces, identify forget-relevant segments, and replace them with benign placeholders that maintain logical structure. We also introduce a new feature replacement unlearning loss for LRMs, which can simultaneously suppress the probability of generating forgotten content while reinforcing structurally valid replacements. Extensive experiments on both synthetic and medical datasets verify the desired properties of our proposed method.
- Abstract(参考訳): 大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化された思考の連鎖(CoT)を生成し、中間的推論ステップを通じて特に知識リークに対して脆弱である。
しかし、著作権や私的コンテンツなどのトレーニングデータにおけるセンシティブな情報の記憶は、倫理的・法的懸念につながっている。
これらの問題に対処するために、選択的な忘れ(マシン・アンラーニングとも呼ばれる)がLRMの潜在的な治療法として現れている。
しかし、既存の未学習手法は主に最終回答を目標としており、忘れた後にLRMの全体的な推論能力を低下させる可能性がある。
さらに、CoT全体に直接アンラーニングを適用することで、一般的な推論能力が低下する可能性がある。
LRMアンラーニングの鍵となる課題は、一般的な推論能力の完全性を維持しながら、対象とする知識の正確なアンラーニングを達成することである。
本稿では、このギャップを埋めるために、汎用推論機能を維持しつつ、機密推論コンポーネントを選択的に除去する新しいLRMアンラーニングフレームワークを提案する。
提案手法では,複数のLLMと検索拡張生成(RAG)を活用して,CoTのトレースを分析し,誤り関連セグメントを特定し,論理構造を維持する良質なプレースホルダーに置き換える。
また,LRMの非学習損失を補う新たな機能を導入し,構造的に有効な置換を補強しながら,忘れたコンテンツを生成する確率を同時に抑制する。
合成データと医用データの両方に対する広範囲な実験により,提案手法の望ましい特性が検証された。
関連論文リスト
- Explainable LLM Unlearning Through Reasoning [23.128471655470793]
これらの問題は、モデルがいつ、どのように解放されるべきかについて、明確なガイダンスがないことに起因する、と私たちは主張する。
本研究では,学習対象の特定範囲と学習後応答を満足する新たな未学習対象,推論に基づく未学習対象を提案する。
一般的な能力を維持しながら、より信頼性の高いアンラーニングを実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-08T06:33:07Z) - CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-01-24T11:41:54Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - R-TOFU: Unlearning in Large Reasoning Models [5.116399056871577]
この設定に合わせた最初のベンチマークであるReasoning-TOFUを紹介します。
R-TOFUは、既存の未学習タスクを現実的なCoTアノテーションで強化する。
本稿では,コヒーレントで不確定な推論を保持する優先最適化変種であるReasoned IDKを提案する。
論文 参考訳(メタデータ) (2025-05-21T07:44:30Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。