論文の概要: STaR: Sensitive Trajectory Regulation for Unlearning in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.09281v1
- Date: Wed, 14 Jan 2026 08:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.336115
- Title: STaR: Sensitive Trajectory Regulation for Unlearning in Large Reasoning Models
- Title(参考訳): STaR:大規模推論モデルにおける未学習のための知覚的軌道制御
- Authors: Jingjing Zhou, Gaoxiang Cong, Li Su, Liang Li,
- Abstract要約: 本稿では、推論プロセスを通じて堅牢なプライバシ保護を実現するパラメータフリー・推論時アンラーニングフレームワークを提案する。
R-TOFUベンチマークの実験は、STaRが最小限のユーティリティ損失で包括的で安定したアンラーニングを実現することを示した。
- 参考スコア(独自算出の注目度): 12.133996629992318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have advanced automated multi-step reasoning, but their ability to generate complex Chain-of-Thought (CoT) trajectories introduces severe privacy risks, as sensitive information may be deeply embedded throughout the reasoning process. Existing Large Language Models (LLMs) unlearning approaches that typically focus on modifying only final answers are insufficient for LRMs, as they fail to remove sensitive content from intermediate steps, leading to persistent privacy leakage and degraded security. To address these challenges, we propose Sensitive Trajectory Regulation (STaR), a parameter-free, inference-time unlearning framework that achieves robust privacy protection throughout the reasoning process. Specifically, we first identify sensitive content via semantic-aware detection. Then, we inject global safety constraints through secure prompt prefix. Next, we perform trajectory-aware suppression to dynamically block sensitive content across the entire reasoning chain. Finally, we apply token-level adaptive filtering to prevent both exact and paraphrased sensitive tokens during generation. Furthermore, to overcome the inadequacies of existing evaluation protocols, we introduce two metrics: Multi-Decoding Consistency Assessment (MCS), which measures the consistency of unlearning across diverse decoding strategies, and Multi-Granularity Membership Inference Attack (MIA) Evaluation, which quantifies privacy protection at both answer and reasoning-chain levels. Experiments on the R-TOFU benchmark demonstrate that STaR achieves comprehensive and stable unlearning with minimal utility loss, setting a new standard for privacy-preserving reasoning in LRMs.
- Abstract(参考訳): 大規模推論モデル(LRM)は高度に自動的な多段階推論を行うが、複雑なCoT(Chain-of-Thought)トラジェクトリを生成する能力は、機密情報が推論プロセス全体に深く埋め込まれている可能性があるため、深刻なプライバシーリスクをもたらす。
既存のLarge Language Models (LLMs) 未学習のアプローチでは、中間ステップからセンシティブなコンテンツを削除できず、永続的なプライバシの漏洩とセキュリティの低下につながるため、最終回答のみの変更に重点を置いているのがLRMには不十分である。
これらの課題に対処するために,パラメータフリーで推論時の未学習フレームワークであるSensitive Trajectory Regulation (STaR)を提案する。
具体的には、まずセマンティック・アウェア・検出によってセンシティブなコンテンツを識別する。
そして,セキュアなプロンプトプレフィックスにより,グローバルな安全制約を注入する。
次に、トラジェクトリ・アウェア・サプレッションを行い、シークエンス・チェーン全体にわたるセンシティブなコンテンツを動的にブロックする。
最後に, トークンレベルの適応フィルタリングを適用して, 生成中の正確かつパラフレージングなトークンの両方を防止する。
さらに、既存の評価プロトコルの欠点を克服するために、多様な復号戦略をまたいだアンラーニングの一貫性を測定するMCS(Multi-Decoding Consistency Assessment)と、応答レベルと推論チェーンレベルの両方でプライバシ保護を定量化するMIA(Multi-Granularity Membership Inference Attack)評価という2つの指標を導入する。
R-TOFUベンチマークの実験では、STaRは最小限のユーティリティ損失で包括的で安定したアンラーニングを実現し、LRMにおけるプライバシ保護推論の新しい標準を確立している。
関連論文リスト
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies [4.435429537888066]
大規模言語モデル(LLM)は自動コード生成には不可欠だが、出力の品質とセキュリティは依然として重要な問題である。
本稿では,目標の明確性,情報の完全性,論理的整合性という3つの重要な側面を含む,迅速な品質評価フレームワークを提案する。
ユーザプロンプトの品質向上は,AI生成コードのセキュリティを強化する上で,重要かつ効果的な戦略となっている。
論文 参考訳(メタデータ) (2025-10-27T02:59:17Z) - Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense [16.519353449118814]
我々は, LRM が主要な目的から無関係で複雑なタスクをプロンプトに不正に埋め込むことによって逸脱する原因となる重要な脆弱性を解析する。
現状のLEMでも高い感受性を示し, インジェクトインジェクターによりタスク精度を最大60%削減した。
本稿では, 教師付きファインタニング(SFT)と強化学習(RL)を併用した, 合成敵データを用いたトレーニングベースディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-17T23:16:34Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文 参考訳(メタデータ) (2025-09-01T15:18:46Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。