論文の概要: PromptCOS: Towards System Prompt Copyright Auditing for LLMs via Content-level Output Similarity
- arxiv url: http://arxiv.org/abs/2509.03117v1
- Date: Wed, 03 Sep 2025 08:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.458632
- Title: PromptCOS: Towards System Prompt Copyright Auditing for LLMs via Content-level Output Similarity
- Title(参考訳): PromptCOS:コンテンツレベルの出力類似性によるLCMのシステムプロンプト著作権監査に向けて
- Authors: Yuchen Yang, Yiming Li, Hongwei Yao, Enhao Huang, Shuo Shao, Bingrun Yang, Zhibo Wang, Dacheng Tao, Zhan Qin,
- Abstract要約: 本稿では,コンテンツレベルの出力類似性に基づいたプロンプト著作権監査手法であるPromptCOSを提案する。
プロンプトを最適化し、特別な検証クエリとコンテントレベルの信号マークを同時に最適化することで、透かしを埋め込む。
PromptCOSは、著作権検証のために、疑わしい出力と信号マークの類似性を比較することによって、不正使用を識別する。
- 参考スコア(独自算出の注目度): 61.793486262641345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of large language models (LLMs) has greatly enhanced reasoning tasks and facilitated the development of LLM-based applications. A critical factor in improving LLM-based applications is the design of effective system prompts, which significantly impact the behavior and output quality of LLMs. However, system prompts are susceptible to theft and misuse, which could undermine the interests of prompt owners. Existing methods protect prompt copyrights through watermark injection and verification but face challenges due to their reliance on intermediate LLM outputs (e.g., logits), which limits their practical feasibility. In this paper, we propose PromptCOS, a method for auditing prompt copyright based on content-level output similarity. It embeds watermarks by optimizing the prompt while simultaneously co-optimizing a special verification query and content-level signal marks. This is achieved by leveraging cyclic output signals and injecting auxiliary tokens to ensure reliable auditing in content-only scenarios. Additionally, it incorporates cover tokens to protect the watermark from malicious deletion. For copyright verification, PromptCOS identifies unauthorized usage by comparing the similarity between the suspicious output and the signal mark. Experimental results demonstrate that our method achieves high effectiveness (99.3% average watermark similarity), strong distinctiveness (60.8% greater than the best baseline), high fidelity (accuracy degradation of no more than 0.58%), robustness (resilience against three types of potential attacks), and computational efficiency (up to 98.1% reduction in computational cost). Our code is available at GitHub https://github.com/LianPing-cyber/PromptCOS.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、推論タスクが大幅に向上し、LLMベースのアプリケーションの開発が容易になった。
LLMベースのアプリケーションを改善する上で重要な要素は、LLMの動作と出力品質に大きな影響を及ぼす効果的なシステムプロンプトの設計である。
しかし、システムプロンプトは盗難や誤用の影響を受けやすいため、プロンプト所有者の利益を損なう可能性がある。
既存の方法は、透かし注入と検証を通じてプロンプト著作権を保護するが、中間的なLCM出力(例えばロジット)に依存しているため、実用性に制限があるため、課題に直面している。
本稿では,コンテンツレベルの出力類似度に基づくプロンプト著作権監査手法であるPromptCOSを提案する。
プロンプトを最適化し、特別な検証クエリとコンテントレベルの信号マークを同時に最適化することで、透かしを埋め込む。
これは、サイクリック出力信号を活用し、補助トークンを注入することで、コンテンツのみのシナリオにおける信頼性の高い監査を保証する。
さらに、悪質な削除から透かしを保護するためにカバートークンも組み込まれている。
PromptCOSは、著作権検証のために、疑わしい出力と信号マークの類似性を比較することによって、不正使用を識別する。
実験の結果,本手法は高い有効性(平均透かし類似度99.3%),強い特異性(最良ベースラインよりも60.8%大きい),高い忠実度(0.58%未満の精度劣化),堅牢性(3種類の攻撃に対する耐性),計算効率(計算コスト98.1%の削減)を実現していることがわかった。
私たちのコードはGitHub https://github.com/LianPing-cyber/PromptCOSで公開されています。
関連論文リスト
- I Know What You Said: Unveiling Hardware Cache Side-Channels in Local Large Language Model Inference [19.466754645346175]
ローカルにデプロイ可能な大規模言語モデル(LLM)は、最近、プライバシに敏感なタスクで人気を集めている。
ローカルLSM推論に新たなサイドチャネル脆弱性が出現し、被害者の入力テキストと出力テキストの両方を公開できる。
我々は,オープンソースのLLM推論システムとプロプライエタリなLLM推論システムの両方を対象として,新しい盗聴攻撃フレームワークを設計する。
論文 参考訳(メタデータ) (2025-05-10T19:06:37Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。