論文の概要: SLAM: Structural Linguistic Activation Marking for Language Models
- arxiv url: http://arxiv.org/abs/2605.05443v2
- Date: Fri, 08 May 2026 18:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.379425
- Title: SLAM: Structural Linguistic Activation Marking for Language Models
- Title(参考訳): SLAM:言語モデルのための構造言語的アクティベーションマーキング
- Authors: Fabrice Harel-Canada, Amit Sahai,
- Abstract要約: 我々は、トークン周波数ではなく構造幾何学にマークを書くことで、このコストを助長する新しいホワイトボックス透かし方式SLAMを提案する。
Gemma-2Bおよび9Bでは、SLAMは1-2の報酬ポイントのみの品質コストで100%検出精度を達成する。
- 参考スコア(独自算出の注目度): 8.088060862901143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM watermarks must be detectable without compromising text quality, yet most existing schemes bias the next-token distribution and pay for detection with measurable quality loss. We present SLAM (Structural Linguistic Activation Marking), a novel white-box watermarking scheme that sidesteps this cost by writing the mark into structural geometry rather than token frequencies: sparse autoencoders identify residual-stream directions encoding linguistic structure (e.g., voice, tense, clause order), and we causally steer those directions at generation time, leaving lexical sampling and semantics unconstrained. On Gemma-2 2B and 9B, SLAM achieves 100% detection accuracy with a quality cost of only 1-2 reward points - compared to 7.5-11.5 for KGW, EWD, and Unigram - with naturalness and diversity preserved at near-unwatermarked levels across both models. The trade-off is a complementary robustness profile: SLAM resists word-level edits but is vulnerable to paraphrase that restructures syntax (at a quality cost), the converse of token-distribution methods.
- Abstract(参考訳): LLMの透かしは、テキストの品質を損なうことなく検出できなければならないが、既存のほとんどのスキームは、次のトーケン分布に偏り、測定可能な品質損失で検出するために支払っている。
我々は、トークン周波数ではなく、記号を構造幾何学に書き込むことによって、このコストを助長する新しいホワイトボックス透かし方式であるSLAM(Structural Linguistic Activation Marking)を提示する。
Gemma-2 2B と 9B では、SLAM は、KGW、EWD、Unigram の 7.5-11.5 と比較して、たった 1-2 の報酬ポイントで100%検出精度を達成している。
SLAMは単語レベルの編集に抵抗するが、(品質の面で)構文を再構成するパラフレーズに弱い。
関連論文リスト
- KUET at StanceNakba Shared Task: StanceMoE: Mixture-of-Experts Architecture for Stance Detection [2.5199066832791526]
StanceMoEは、アクターレベルのスタンス検出のための微細調整されたBERTエンコーダ上に構築された、コンテキスト強化型Mixture-of-Experts (MoE)アーキテクチャである。
本モデルでは,補完的な言語信号の取得を目的とした6つの専門モジュールを統合した。
StanceNakba 2026 Subtask Aデータセットで、1,401の注釈付き英語テキストを含む実験が行われた。
論文 参考訳(メタデータ) (2026-04-01T13:24:03Z) - From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15 [0.41998444721319217]
大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究では、各ネットワークフローをコンパクトなテキストレコードに変換し、軽量でドメインにインスパイアされたフラグで拡張することで、プロンプトオンリーなアプローチを評価する。
ゼロショット,命令誘導,スプリットショットを比較して,同一のスプリット下での強い神経ベースライン,精度,精度,リコール,F1,マクロスコアを比較した。
論文 参考訳(メタデータ) (2025-10-18T02:11:50Z) - A Linguistics-Aware LLM Watermarking via Syntactic Predictability [9.249768575382397]
STELAは,言語固有の言語的自由度と透かし強度を一致させる新しい枠組みである。
我々の検出器は、いかなるモデルロジットもアクセスせずに動作し、公に検証可能な検出を容易にする。
論文 参考訳(メタデータ) (2025-10-10T07:26:15Z) - Detecting Post-generation Edits to Watermarked LLM Outputs via Combinatorial Watermarking [51.417096446156926]
ウォーターマークされたLCM出力に局所的に編集されたポストジェネレーションの編集を検出する。
本稿では,語彙を部分集合に分割し,透かしを埋め込むパターンベースの透かしフレームワークを提案する。
本手法は,様々な編集シナリオにおけるオープンソースのLCMについて評価し,編集ローカライゼーションにおける強力な経験的性能を示す。
論文 参考訳(メタデータ) (2025-10-02T03:33:12Z) - SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling [24.603169307967338]
SAEMarkはポストホックなマルチビット透かしのための一般的なフレームワークである。
パーソナライズされたメッセージは、推論時間、フィーチャベースのリジェクションサンプリングによってのみ埋め込む。
SAEMarkの一貫性のある性能を示し、英語でのF1は99.7%、マルチビット検出精度は強い。
論文 参考訳(メタデータ) (2025-08-11T17:33:18Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。