論文の概要: In-Context Watermarks for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16934v1
- Date: Thu, 22 May 2025 17:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.496206
- Title: In-Context Watermarks for Large Language Models
- Title(参考訳): 大規模言語モデルのための文脈内透かし
- Authors: Yepeng Liu, Xuandong Zhao, Christopher Kruegel, Dawn Song, Yuheng Bu,
- Abstract要約: In-Context Watermarking (ICW)は、インシデントエンジニアリングのみで生成されたテキストに透かしを埋め込む。
粒度の異なる4つのICW戦略について検討した。
本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
- 参考スコア(独自算出の注目度): 71.29952527565749
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing use of large language models (LLMs) for sensitive applications has highlighted the need for effective watermarking techniques to ensure the provenance and accountability of AI-generated text. However, most existing watermarking methods require access to the decoding process, limiting their applicability in real-world settings. One illustrative example is the use of LLMs by dishonest reviewers in the context of academic peer review, where conference organizers have no access to the model used but still need to detect AI-generated reviews. Motivated by this gap, we introduce In-Context Watermarking (ICW), which embeds watermarks into generated text solely through prompt engineering, leveraging LLMs' in-context learning and instruction-following abilities. We investigate four ICW strategies at different levels of granularity, each paired with a tailored detection method. We further examine the Indirect Prompt Injection (IPI) setting as a specific case study, in which watermarking is covertly triggered by modifying input documents such as academic manuscripts. Our experiments validate the feasibility of ICW as a model-agnostic, practical watermarking approach. Moreover, our findings suggest that as LLMs become more capable, ICW offers a promising direction for scalable and accessible content attribution.
- Abstract(参考訳): センシティブなアプリケーションにおける大規模言語モデル(LLM)の利用の増加は、AI生成テキストの証明と説明責任を保証する効果的な透かし技術の必要性を強調している。
しかし、既存の透かし手法の多くはデコードプロセスへのアクセスを必要とし、実際の設定で適用性を制限する。
説明的な例の1つは、学術的ピアレビューの文脈で不名誉なレビュアーがLLMを使用することである。
このギャップを生かしたインコンテキスト透かし (ICW) を導入し, インコンテキスト学習とインストラクション追従能力を活用して, 素早いエンジニアリングによってのみ生成されたテキストに透かしを埋め込む。
粒度の異なる4つのICW戦略について検討した。
さらに, 間接プロンプト注入 (IPI) の設定を特定のケーススタディとして検討し, 学術写本などの入力文書の変更によって透かしを隠蔽的にトリガする。
本実験は,モデルに依存しない実用的な透かし手法としてのICWの実現可能性を検証するものである。
さらに,LCMの能力が向上するにつれ,ICWは,スケーラブルでアクセスしやすいコンテンツ属性に対して,有望な方向性を示すことが示唆された。
関連論文リスト
- Topic-Based Watermarks for Large Language Models [46.71493672772134]
本稿では,Large Language Model (LLM) 出力のための軽量なトピック誘導型透かし方式を提案する。
本手法は,Google の SynthID-Text など,業界をリードするシステムに匹敵する難易度を実現する。
論文 参考訳(メタデータ) (2024-04-02T17:49:40Z) - Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models [31.062753031312006]
大規模言語モデルは、潜在的な誤報を伴う高品質な応答を生成する。
ウォーターマーキングは、テキストに隠れたマーカーを埋め込むことによって、この文脈において重要な意味を持つ。
ウォーターマーキングのための新しい多目的最適化(MOO)手法を提案する。
本手法は,検出性と意味的整合性を同時に達成する。
論文 参考訳(メタデータ) (2024-02-28T05:43:22Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。