論文の概要: Echoes within the Reasoning: Stealthy and Effective Watermarking via Chain of Thought
- arxiv url: http://arxiv.org/abs/2605.28890v1
- Date: Wed, 27 May 2026 07:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.928896
- Title: Echoes within the Reasoning: Stealthy and Effective Watermarking via Chain of Thought
- Title(参考訳): 推論の中のエコー:思考の連鎖による静かで効果的な透かし
- Authors: Jiacheng Lu, Yiming Li, Tao Song, Weijian Wang, Wenjie Qu, Haibing Guan, Jiaheng Zhang,
- Abstract要約: BiCoTは、オーナシップシグナルを推論トレースの内部幾何学に埋め込む透かしフレームワークである。
モデル盗難と表現ドリフトの検証を可能にするために,ロバスト部分空間登録を導入する。
実験によると、BiCoTは様々な複雑な推論タスクにおける推論の忠実さを保っている。
- 参考スコア(独自算出の注目度): 22.88615312532184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models with Chain-of-Thought reasoning capabilities represent valuable intellectual property, yet existing black-box watermarking methods often trade robustness for reasoning fidelity by perturbing final answers or relying on fragile trigger patterns. We propose BiCoT, a watermarking framework that embeds ownership signals into the internal geometry of reasoning traces by aligning high-saliency structural anchors with a private signature subspace while regularizing ordinary control tokens to preserve semantic capacity. This design couples the watermark with reasoning-relevant representations, making removal difficult without disrupting the features that support coherent reasoning. To enable verification under model theft and representation drift, we introduce Robust Subspace Registration (RSR), a Top- logprob-based black-box verifier that uses sentinel tokens to calibrate systematic shifts in the output distribution. Experiments show that BiCoT preserves reasoning fidelity across diverse complex reasoning tasks while achieving robust detection under fine-tuning, quantization, model-level perturbations, and adaptive output-level attacks across in-domain and out-of-distribution settings.
- Abstract(参考訳): 連鎖推論能力を持つ大規模言語モデルは、貴重な知的財産を表現しているが、既存のブラックボックスの透かし手法は、最終回答を妨害したり、脆弱なトリガーパターンに依存することによって、忠実さを推論するために頑丈さと交換することが多い。
意味的能力を維持するために通常の制御トークンを正規化しながら,高可用性構造アンカーをプライベートなシグネチャ部分空間に整列させることにより,オーサリングトレースの内部形状にオーサシップ信号を埋め込む透かしフレームワークであるBiCoTを提案する。
この設計は、ウォーターマークと推論関連表現を結合し、コヒーレント推論をサポートする特徴を損なうことなく、除去を困難にする。
モデル盗難と表現のドリフト下での検証を可能にするため、出力分布の系統的なシフトを校正するためにセンチネルトークンを使用するトップログプロブベースのブラックボックス検証器であるRobost Subspace Registration (RSR)を導入する。
実験によると、BiCoTは様々な複雑な推論タスクにおける推論の忠実さを保ちながら、微調整、量子化、モデルレベルの摂動、ドメイン内および配布外設定間の適応的な出力レベルの攻撃の下で堅牢な検出を実現している。
関連論文リスト
- Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio [58.612001688217056]
自己回帰モデルに対する推論時透かしは、離散化の不整合による連続的なモダリティには適さない。
合成音声の強力で堅牢な透かしのためのエレガントな解法を提案する。
論文 参考訳(メタデータ) (2026-05-25T15:43:20Z) - R-CoT: A Reasoning-Layer Watermark via Redundant Chain-of-Thought in Large Language Models [48.47950824122549]
本稿では,水標を推論経路に埋め込むredundant Chain-of-Thought (R-CoT) と呼ばれる推論層フレームワークを提案する。
実験の結果,R-CoTは従来の手法と比較して高い透かし効果と強靭性が得られることがわかった。
論文 参考訳(メタデータ) (2026-04-28T05:52:57Z) - Green-Red Watermarking for Recommender Systems [8.997062424915711]
GREWは、レコメンダシステムのための新しいグリーン・リード・ウォーターマーキングフレームワークである。
シークレットキーを使用してアイテムスペースを"グリーン"アイテムに分割し、ソフトプロモーションと"レッド"アイテムをアンカーとして使用することで、パラダイムを脆弱な記憶から、秘密のキー制御された出力バイアスに移行する。
GREWは、既存のベースラインと比較して、強力なオーナシップの検証と抽出攻撃に対する堅牢性を実現している。
論文 参考訳(メタデータ) (2026-04-26T07:16:44Z) - Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework [16.430415006488865]
TTP-Detectは、非侵襲的なサードパーティによる透かし検証のために設計された、先駆的なブラックボックスフレームワークである。
プロキシモデルを用いて、透かし関連信号を増幅し、補完的な相対的な測定を行い、透かし付き分布とクエリテキストのアライメントを評価する。
多様な攻撃に対して優れた検出性能と堅牢性を実現する。
論文 参考訳(メタデータ) (2026-03-16T08:28:48Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models [46.12198035083885]
本稿では推論集約型LLM用に設計された新しい透かしフレームワークであるReasonMarkを紹介する。
提案手法は, 生成を非破壊思考相と透かし解答相に分解する。
実験の結果、ReasonMark はテキストのパープレクシティを 0.35 に減らし、BLEU のスコアを0.164 に増やし、数学的精度を 0.67 ポイント向上させることで最先端の手法を上回った。
論文 参考訳(メタデータ) (2026-01-08T17:32:22Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。