論文の概要: Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.05144v1
- Date: Thu, 08 Jan 2026 17:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.30517
- Title: Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models
- Title(参考訳): 思考を蒸留し, 答えを透かし: 大規模推論モデルのための意味論的指導型透かし
- Authors: Shuliang Liu, Xingyu Li, Hongyi Liu, Yibo Yan, Bingchen Duan, Qi Zheng, Dong Fang, Lingfeng Su, Xuming Hu,
- Abstract要約: 本稿では推論集約型LLM用に設計された新しい透かしフレームワークであるReasonMarkを紹介する。
提案手法は, 生成を非破壊思考相と透かし解答相に分解する。
実験の結果、ReasonMark はテキストのパープレクシティを 0.35 に減らし、BLEU のスコアを0.164 に増やし、数学的精度を 0.67 ポイント向上させることで最先端の手法を上回った。
- 参考スコア(独自算出の注目度): 46.12198035083885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning Large Language Models (RLLMs) excelling in complex tasks present unique challenges for digital watermarking, as existing methods often disrupt logical coherence or incur high computational costs. Token-based watermarking techniques can corrupt the reasoning flow by applying pseudo-random biases, while semantic-aware approaches improve quality but introduce significant latency or require auxiliary models. This paper introduces ReasonMark, a novel watermarking framework specifically designed for reasoning-intensive LLMs. Our approach decouples generation into an undisturbed Thinking Phase and a watermarked Answering Phase. We propose a Criticality Score to identify semantically pivotal tokens from the reasoning trace, which are distilled into a Principal Semantic Vector (PSV). The PSV then guides a semantically-adaptive mechanism that modulates watermark strength based on token-PSV alignment, ensuring robustness without compromising logical integrity. Extensive experiments show ReasonMark surpasses state-of-the-art methods by reducing text Perplexity by 0.35, increasing translation BLEU score by 0.164, and raising mathematical accuracy by 0.67 points. These advancements are achieved alongside a 0.34% higher watermark detection AUC and stronger robustness to attacks, all with a negligible increase in latency. This work enables the traceable and trustworthy deployment of reasoning LLMs in real-world applications.
- Abstract(参考訳): 複雑なタスクに優れたRLLM(Reasoning Large Language Models)は、既存の手法が論理的コヒーレンスを乱したり、高い計算コストを発生させるため、デジタル透かしに固有の課題を示す。
トークンベースの透かし技術は擬似ランダムバイアスを適用して推論の流れを損なうことがあるが、セマンティック・アウェア・アプローチは品質を向上するが、かなりの遅延や補助モデルを必要とする。
本稿では推論集約型LLM用に設計された新しい透かしフレームワークであるReasonMarkを紹介する。
提案手法は, 生成を非破壊思考相と透かし解答相に分解する。
本稿では,主意味ベクトル (PSV) に蒸留した推論トレースから意味的に重要なトークンを識別するための臨界スコアを提案する。
PSVはその後、トークン-PSVアライメントに基づいて透かし強度を調節し、論理的整合性を損なうことなく堅牢性を確保するセマンティック適応機構を導出する。
大規模な実験では、ReasonMarkはテキストのパープレクシティを0.35に減らし、BLEUのスコアを0.164に増やし、数学的精度を0.67ポイント向上させることで最先端の手法を上回っている。
これらの進歩は、より0.34%高い透かし検出AUCと、攻撃に対する強い堅牢性とともに達成される。
この作業により、現実世界のアプリケーションにおいて、LLMをトレース可能で信頼性の高いデプロイが可能になる。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - MorphMark: Flexible Adaptive Watermarking for Large Language Models [49.3302421751894]
既存の透かし法は、しばしばジレンマに苦しむ: 透かしの有効性を改善するには、テキストの品質を低下させるコストがかかる。
特定因子の変化に応じて透かし強度を適応的に調整するMorphMark法を開発した。
MorphMarkは、高い柔軟性と時間と空間効率を提供するとともに、有効性の高いジレンマの優れた解決を実現している。
論文 参考訳(メタデータ) (2025-05-14T13:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。