論文の概要: Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs
- arxiv url: http://arxiv.org/abs/2603.05618v1
- Date: Thu, 05 Mar 2026 19:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.389232
- Title: Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs
- Title(参考訳): LLMにおけるチェーン・オブ・ソート漏れの測定と緩和
- Authors: Patrick Ahrend, Tobias Eder, Xiyang Yang, Zhiyi Pan, Georg Groh,
- Abstract要約: CoT(Chain-of-Thought)プロンプトは、個人識別可能な情報(PII)をプロンプトから推論トレースと出力に変換することで、プライバシーリスクを増大させる。
モデルに依存しないフレームワークを用いて, 直接的, 推論時のPIIリークについて検討する。
- 参考スコア(独自算出の注目度): 5.834576254792341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting improves LLM reasoning but can increase privacy risk by resurfacing personally identifiable information (PII) from the prompt into reasoning traces and outputs, even under policies that instruct the model not to restate PII. We study such direct, inference-time PII leakage using a model-agnostic framework that (i) defines leakage as risk-weighted, token-level events across 11 PII types, (ii) traces leakage curves as a function of the allowed CoT budget, and (iii) compares open- and closed-source model families on a structured PII dataset with a hierarchical risk taxonomy. We find that CoT consistently elevates leakage, especially for high-risk categories, and that leakage is strongly family- and budget-dependent. Increasing the reasoning budget can either amplify or attenuate leakage depending on the base model. We then benchmark lightweight inference-time gatekeepers: a rule-based detector, a TF-IDF + logistic regression classifier, a GLiNER-based NER model, and an LLM-as-judge, using risk-weighted F1, Macro-F1, and recall. No single method dominates across models or budgets, motivating hybrid, style-adaptive gatekeeping policies that balance utility and risk under a common, reproducible protocol.
- Abstract(参考訳): CoT(Chain-of-Thought)はLCM推論を改善するが、PIIを再開しないように指示するポリシーの下でも、プロンプトから個人識別可能な情報(PII)を推論のトレースと出力に置き換えることで、プライバシーリスクを高めることができる。
モデルに依存しないフレームワークを用いて, 直接的, 推論時PIIリークについて検討する。
(i)11PIIタイプにわたるリスク重み付きトークンレベルのイベントとして漏洩を定義する。
二 許可されたCoT予算の機能として漏洩曲線をトレースし、
(iii) 構造化されたPIIデータセット上のオープンソースモデルとクローズドソースモデルファミリを階層的リスク分類と比較する。
CoTは、特にリスクの高いカテゴリのリークを継続的に増加させ、リークは家族と予算に強く依存していることに気付きました。
推論予算の増大は、ベースモデルによるリークを増幅または緩和する可能性がある。
次に、ルールベース検出器、TF-IDF+ロジスティック回帰分類器、GLiNERベースのNERモデル、リスク重み付きF1、マクロF1を用いたLCM-as-judgeのベンチマークを行う。
共通の再現可能なプロトコルの下で、ユーティリティとリスクのバランスをとるハイブリッドなスタイル適応型のゲートキーピングポリシーを動機付けている。
関連論文リスト
- STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - CVPL: A Geometric Framework for Post-Hoc Linkage Risk Assessment in Protected Tabular Data [0.0]
形式的なプライバシメトリクスはコンプライアンス指向の保証を提供するが、リリースされたデータセットにおける実際のリンク可能性の定量化に失敗することが多い。
CVPLは、ブロッキング、ベクトル化、潜在射影、類似性評価を含む演算子パイプラインとしてリンク解析を表現している。
19の構成にまたがる10,000レコードの実証的検証は、正式なk匿名性コンプライアンスが経験的結合性と共存することを示した。
論文 参考訳(メタデータ) (2026-02-11T16:39:07Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - FROC: A Unified Framework with Risk-Optimized Control for Machine Unlearning in LLMs [28.687949604557986]
大規模言語モデル(LLM)における機械学習のためのリスクd制御を用いた統合フレームワークFROCを提案する。
FROCは、非学習行動におけるユーザが特定したリスク予算を表現するコンフォメーションスタイルのリスクコントロールの定式化を中心に構築されている。
複数のLLM MU法による実験により、FROCは安定で解釈可能なリスクランドスケープを生成することが示された。
論文 参考訳(メタデータ) (2025-12-15T13:53:12Z) - Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。
CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T12:31:28Z) - LLM-Generated Counterfactual Stress Scenarios for Portfolio Risk Simulation via Hybrid Prompt-RAG Pipeline [0.0]
マクロ財務ストレステストのための透明で完全に監査可能なLCMベースのパイプラインを開発した。
このシステムは、GDPの成長、インフレ、政策金利をカバーするG7のための機械可読マクロ経済シナリオを生成する。
モデル、国、検索設定を越えて、LLMはコヒーレントで国固有のストレス物語を生成する。
論文 参考訳(メタデータ) (2025-11-26T19:29:22Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。