論文の概要: Leaky Thoughts: Large Reasoning Models Are Not Private Thinkers
- arxiv url: http://arxiv.org/abs/2506.15674v1
- Date: Wed, 18 Jun 2025 17:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.777166
- Title: Leaky Thoughts: Large Reasoning Models Are Not Private Thinkers
- Title(参考訳): 謎の思考:大きな推論モデルはプライベートな思考者ではない
- Authors: Tommaso Green, Martin Gubri, Haritz Puerto, Sangdoo Yun, Seong Joon Oh,
- Abstract要約: 個人エージェントとして使用する大規模推論モデルの推論トレースにおいて,プライバシの漏洩について検討する。
推論トレースには、インプットインジェクションによって抽出したり、誤ってアウトプットにリークしたりできるセンシティブなユーザデータが頻繁に含まれていることを示す。
安全性の努力は、アウトプットだけでなく、モデルの内部的思考にも及ばなければならない、と我々は主張する。
- 参考スコア(独自算出の注目度): 36.044522516005884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study privacy leakage in the reasoning traces of large reasoning models used as personal agents. Unlike final outputs, reasoning traces are often assumed to be internal and safe. We challenge this assumption by showing that reasoning traces frequently contain sensitive user data, which can be extracted via prompt injections or accidentally leak into outputs. Through probing and agentic evaluations, we demonstrate that test-time compute approaches, particularly increased reasoning steps, amplify such leakage. While increasing the budget of those test-time compute approaches makes models more cautious in their final answers, it also leads them to reason more verbosely and leak more in their own thinking. This reveals a core tension: reasoning improves utility but enlarges the privacy attack surface. We argue that safety efforts must extend to the model's internal thinking, not just its outputs.
- Abstract(参考訳): 個人エージェントとして使用する大規模推論モデルの推論トレースにおいて,プライバシの漏洩について検討する。
最終的な出力とは異なり、推論の痕跡はしばしば内部的で安全であると仮定される。
この仮定は,インジェクションのインジェクションによって抽出したり,誤ってアウトプットにリークするような,機密性の高いユーザデータを頻繁に含む推論トレースを示すことによって,その仮定に挑戦する。
探索およびエージェント評価を通じて、テスト時間計算アプローチ、特に推論ステップが増大し、そのようなリークが増幅されることを実証する。
これらのテストタイムの計算アプローチの予算を増やすことで、最終回答においてモデルはより慎重になりますが、さらに冗長に推論し、自身の思考でよりリークすることになります。
推論は実用性を改善するが、プライバシ攻撃面を拡大する。
安全性の努力は、アウトプットだけでなく、モデルの内部的思考にも及ばなければならない、と我々は主張する。
関連論文リスト
- On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - Internal Bias in Reasoning Models leads to Overthinking [58.817405319722596]
推論モデルにおける過度な考えは、入力テキストに対する内部バイアスから生じる可能性があることを初めて示します。
元の入力部をマスクアウトすることで、内部バイアスの影響を効果的に緩和することができ、推論長を31%-53%削減することができる。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [42.407188124841234]
思考のランドスケープ(英: Landscape of thoughts)は、複数の選択データセットにおいて、思考の連鎖の推論パスを検査するツールである。
強いモデルと弱いモデル、正解と誤解、そして異なる推論タスクを区別する。
また、低い一貫性や高い不確実性など、望ましくない推論パターンを明らかにする。
論文 参考訳(メタデータ) (2025-03-28T06:09:51Z) - ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [16.407923457296235]
本研究では、推論モデルの隠れ表現に、推論の長さがどのように埋め込まれているかを検討する。
textbftextitThinkEditは、非常に短い推論の問題を軽減するために、シンプルだが効果的な重み編集手法である。
モデルのパラメータの0.2%にしか変更されないため、textbftextitThinkEditは、過剰に短い推論を減らし、顕著な精度向上をもたらす。
論文 参考訳(メタデータ) (2025-03-27T23:53:45Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。