論文の概要: CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization
- arxiv url: http://arxiv.org/abs/2604.15847v1
- Date: Fri, 17 Apr 2026 08:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.838561
- Title: CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization
- Title(参考訳): CiPO:反復選好最適化による大規模推論モデルの対実的アンラーニング
- Authors: Junyi Li, Yongqiang Chen, Ningning Ding,
- Abstract要約: 大きな推論モデル(LRM)は、複雑な問題に対処するための長いチェーン・オブ・シント(CoT)推論を強調する。
既存の方法は、CoTトレースから望ましくない知識を完全に排除するか、推論プロセスへの干渉によって推論性能を低下させるかのいずれかである。
LRMにおけるCoT推論の目的的介入として、非学習を再定義する新しいフレームワークである反復的選好最適化(CiPO)を通じて、対実的アンラーニングを導入する。
- 参考スコア(独自算出の注目度): 54.774620283208776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning has gained increasing attention in recent years, as a promising technique to selectively remove unwanted privacy or copyrighted information from Large Language Models that are trained on a massive scale of human data. However, the emergence of Large Reasoning Models (LRMs), which emphasize long chain-of-thought (CoT) reasoning to address complex questions, presents a dilemma to unlearning: existing methods either struggle to completely eliminate undesired knowledge from the CoT traces or degrade the reasoning performances due to the interference with the reasoning process. To this end, we introduce Counterfactual Unlearning through iterative Preference Optimization (CiPO), a novel framework that redefines unlearning as the targeted intervention of the CoT reasoning in LRMs. More specifically, given a desired unlearning target answer, CiPO instructs LRMs to generate a logically valid counterfactual reasoning trace for preference tuning. As the LRM adjusts to the counterfactual trace, CiPO iteratively updates the preference learning data to increase the discrepancy from the original model. This iterative loop ensures both desirable unlearning and smooth optimization, effectively mitigating the dilemma. Experiments on challenging benchmarks demonstrate that CiPO excels at unlearning, completely removing knowledge from both the intermediate CoT steps and the final answer, while preserving the reasoning abilities of LRMs.
- Abstract(参考訳): 近年,大規模な人間のデータに基づいてトレーニングされた大規模言語モデルから,望ましくないプライバシや著作権のある情報を選択的に削除する技術として,機械学習が注目を集めている。
しかし、複雑な問題に対処するために長いチェーン・オブ・シークレット(CoT)推論を強調するLRM(Large Reasoning Models)の出現は、未学習にジレンマをもたらす。
この目的のために,LRMにおけるCoT推論の目的的介入として,非学習を再定義する新しいフレームワークである反復的選好最適化(CiPO)を通じて,対実的アンラーニングを導入する。
より具体的には、所望の未学習目標解が与えられた場合、CiPOは、好みのチューニングのために論理的に妥当な反実的推論トレースを生成するようにLEMに指示する。
LRMが反ファクトトレースに調整されると、CiPOは優先学習データを反復的に更新し、元のモデルとの相違を増大させる。
この反復ループは、望ましい未学習と滑らかな最適化の両方を保証し、ジレンマを効果的に緩和する。
挑戦的なベンチマークの実験では、CiPOは未学習で優れており、中級のCoTステップと最終回答の両方から知識を完全に取り除き、LRMの推論能力を保っている。
関連論文リスト
- Selective Forgetting for Large Reasoning Models [22.21783013812524]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、構造化された思考の連鎖(CoT)を生成する。
著作権や私的コンテンツなどのトレーニングデータにおけるセンシティブな情報の記憶は、倫理的および法的懸念につながっている。
一般的な推論能力を保ちながら、敏感な推論成分を選択的に除去する新しいLRMアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-04T03:47:12Z) - Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning [62.680551162054975]
我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
論文 参考訳(メタデータ) (2026-02-03T08:34:20Z) - CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文 参考訳(メタデータ) (2025-10-05T13:38:31Z) - Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [42.1825027925353]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - R$^2$ec: Towards Large Recommender Models with Reasoning [59.32598867813266]
R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - R-TOFU: Unlearning in Large Reasoning Models [5.116399056871577]
この設定に合わせた最初のベンチマークであるReasoning-TOFUを紹介します。
R-TOFUは、既存の未学習タスクを現実的なCoTアノテーションで強化する。
本稿では,コヒーレントで不確定な推論を保持する優先最適化変種であるReasoned IDKを提案する。
論文 参考訳(メタデータ) (2025-05-21T07:44:30Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。