論文の概要: When Reasoning Leaks Membership: Membership Inference Attack on Black-box Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.13607v1
- Date: Tue, 20 Jan 2026 05:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.165143
- Title: When Reasoning Leaks Membership: Membership Inference Attack on Black-box Large Reasoning Models
- Title(参考訳): ブラックボックス大共振モデルにおけるメンバシップ推論攻撃
- Authors: Ruihan Hu, Yu-Ming Shang, Wei Luo, Ye Tao, Xi Zhang,
- Abstract要約: 大規模推論モデル(LRM)は、複雑なタスクを解く上での強い性能で急速に有名になった。
LRMはAPIを通じて中間的推論トレースを公開し、透明性を向上させる。
これらの痕跡がメンバーシップのシグナルを漏らし、新たなプライバシーの脅威を生じさせることがわかりました。
我々は,ブラックボックスLEMを対象とした最初のメンバシップ推論攻撃フレームワークであるBlackSpectrumを提案する。
- 参考スコア(独自算出の注目度): 15.865404750176813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have rapidly gained prominence for their strong performance in solving complex tasks. Many modern black-box LRMs expose the intermediate reasoning traces through APIs to improve transparency (e.g., Gemini-2.5 and Claude-sonnet). Despite their benefits, we find that these traces can leak membership signals, creating a new privacy threat even without access to token logits used in prior attacks. In this work, we initiate the first systematic exploration of Membership Inference Attacks (MIAs) on black-box LRMs. Our preliminary analysis shows that LRMs produce confident, recall-like reasoning traces on familiar training member samples but more hesitant, inference-like reasoning traces on non-members. The representations of these traces are continuously distributed in the semantic latent space, spanning from familiar to unfamiliar samples. Building on this observation, we propose BlackSpectrum, the first membership inference attack framework targeting the black-box LRMs. The key idea is to construct a recall-inference axis in the semantic latent space, based on representations derived from the exposed traces. By locating where a query sample falls along this axis, the attacker can obtain a membership score and predict how likely it is to be a member of the training data. Additionally, to address the limitations of outdated datasets unsuited to modern LRMs, we provide two new datasets to support future research, arXivReasoning and BookReasoning. Empirically, exposing reasoning traces significantly increases the vulnerability of LRMs to membership inference attacks, leading to large gains in attack performance. Our findings highlight the need for LRM companies to balance transparency in intermediate reasoning traces with privacy preservation.
- Abstract(参考訳): 大規模推論モデル(LRM)は、複雑なタスクを解く上での強い性能で急速に有名になった。
多くの現代のブラックボックスLEMは、透明性を改善するためにAPIを通して中間的推論トレースを公開する(例:Gemini-2.5、Claude-sonnet)。
それらの利点にもかかわらず、これらのトレースがメンバーシップシグナルを漏洩させ、以前の攻撃で使われたトークンログにアクセスしなくても、新たなプライバシの脅威を生じさせる可能性がある。
本研究は,ブラックボックスLEM上でのMIA(Commanship Inference Attacks)を初めて体系的に調査する。
予備分析の結果, LRMは慣れ親しんだトレーニングメンバーのサンプルから, 信頼性の高いリコールライクな推論トレースを生成するが, 非メンバーの推測ライクな推論トレースはより頑健であることがわかった。
これらのトレースの表現は、慣れ親しんだサンプルから馴染みのないサンプルまで、セマンティック潜在空間で継続的に分散される。
この観測に基づいて,ブラックボックスLEMを対象とした最初のメンバシップ推論攻撃フレームワークであるBlackSpectrumを提案する。
鍵となる考え方は、露出したトレースから派生した表現に基づいて、セマンティック潜在空間にリコール-推論軸を構築することである。
この軸に沿ってクエリサンプルがどこに落ちているかを特定することで、攻撃者は会員スコアを取得し、それがトレーニングデータのメンバーである可能性を予測することができる。
さらに、現代のLRMに合わない時代遅れのデータセットの制限に対処するため、今後の研究をサポートするために、arXivReasoningとBookReasoningという2つの新しいデータセットを提供しています。
経験的に、推論トレースを公開することで、メンバシップ推論攻撃に対するLEMの脆弱性が著しく増加し、攻撃性能が大きく向上する。
この結果から, 中間的推論トレースとプライバシ保護のバランスをとることの必要性が浮き彫りとなった。
関連論文リスト
- One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Membership Inference Attacks on Tokenizers of Large Language Models [40.2492347972186]
本稿では,トークン化剤によるメンバシップリークに関する最初の研究について述べる。
データセットのメンバシップを推測する5つのアタック手法について検討する。
われわれの発見は、トークン化業者を、見過ごされているが重要なプライバシーの脅威として強調している。
論文 参考訳(メタデータ) (2025-10-07T09:05:40Z) - On the Self-awareness of Large Reasoning Models' Capability Boundaries [46.74014595035246]
本稿では,Large Reasoning Models (LRM) が機能境界の自己認識性を持っているかを検討する。
ブラックボックスモデルでは、推論式は境界信号を明らかにし、解決不可能な問題に対する信頼軌道は加速するが、解決不可能な問題に対する収束不確実軌道は加速する。
ホワイトボックスモデルでは,最後の入力トークンの隠れ状態が境界情報を符号化し,解答可能かつ解答不能な問題を推論開始前に線形分離可能であることを示す。
論文 参考訳(メタデータ) (2025-09-29T12:40:47Z) - Neural Breadcrumbs: Membership Inference Attacks on LLMs Through Hidden State and Attention Pattern Analysis [9.529147118376464]
メンバーシップ推論攻撃(MIA)は、特定のデータが機械学習モデルのトレーニングに使用されたかどうかを明らかにする。
我々の研究は、内部表現を単に出力ではなく検査することで、メンバーシップ推論信号に対するさらなる洞察を与えることができるかを探る。
本研究は,出力に基づく信号が保護された場合でも,内部モデル行動がトレーニングデータの露出の側面を明らかにすることを示唆している。
論文 参考訳(メタデータ) (2025-09-05T19:05:49Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - Exploring Federated Learning Dynamics for Black-and-White-Box DNN Traitor Tracing [49.1574468325115]
本稿では,フェデレートラーニングにおける白黒裏切り者追跡の適応について検討する。
以上の結果から,情報漏えいを疑うデータ所有者を識別するコラシオン耐性トレプレクターの追跡は,訓練の初期段階においてもFLフレームワークで可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T09:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。