論文の概要: ReTokSync: Self-Synchronizing Tokenization Disambiguation for Generative Linguistic Steganography
- arxiv url: http://arxiv.org/abs/2604.25486v1
- Date: Tue, 28 Apr 2026 10:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.823639
- Title: ReTokSync: Self-Synchronizing Tokenization Disambiguation for Generative Linguistic Steganography
- Title(参考訳): ReTokSync:ジェネレーティブ言語ステレオグラフィーのための自己同期型トークン化曖昧化
- Authors: Yaofei Wang, Rui Wang, Weilong Pang, JiaLiang Han, Yuan Qi, Donghui Hu, Kejiang Chen,
- Abstract要約: 生成言語ステガノグラフィーは、秘密メッセージを自然言語生成プロセスに埋め込むことで、秘密のコミュニケーションを可能にする。
同じ表面テキストは受信側で異なるトークンシーケンスに再トークン化され、共有復号状態が破られる。
生成中のレシーバビューのトークン化を監視し,あいまいさの発生時にのみ修正リセットをトリガーするフレームワークであるReTokSyncを提案する。
- 参考スコア(独自算出の注目度): 28.687186883782033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative linguistic steganography (GLS) enables covert communication by embedding secret messages into the natural language generation process. In practical deployment, however, GLS is vulnerable to tokenization ambiguity: the same surface text may be re-tokenized into a different token sequence at the receiver, breaking the shared decoding state between the communicating parties so that a single local mismatch can propagate into complete extraction failure. Existing solutions either remove ambiguous tokens -- distorting the generation distribution and compromising security -- or preserve the distribution at the cost of substantially reduced embedding capacity or prohibitive runtime overhead. To address this issue, we propose ReTokSync (Re-Tokenization Synchronization), a self-synchronizing disambiguation framework that monitors the receiver-view tokenization during generation and triggers a corrective reset only when ambiguity actually occurs. By confining the effect of tokenization ambiguity to sparse residual bit errors rather than global desynchronization, ReTokSync leaves ambiguity-free positions entirely untouched and remains compatible with the underlying steganographic algorithm. Experiments on both English and Chinese settings show that ReTokSync stays closest to the steganographic baseline in distributional security (zero KL divergence), text quality, embedding capacity, and runtime, while achieving extraction accuracy above 99.7\%. Building on this property, we further develop a two-channel covert communication mechanism in which ReTokSync serves as the primary channel and a reliable auxiliary channel corrects the remaining errors, achieving 100\% end-to-end recovery across all evaluated configurations.
- Abstract(参考訳): ジェネレーティブ言語ステガノグラフィ(GLS)は、秘密メッセージを自然言語生成プロセスに埋め込むことで、秘密のコミュニケーションを可能にする。
しかし、現実的な展開では、GLSはトークン化の曖昧さに対して脆弱であり、同じ表面テキストを受信側で異なるトークンシーケンスに再トークン化し、通信側間で共有された復号状態を破り、単一のローカルミスマッチが完全な抽出失敗へと伝播する。
既存のソリューションでは、あいまいなトークンを削除 -- 生成の分散を歪め、セキュリティを損なう -- するか、組み込み能力を大幅に削減したり、ランタイムのオーバーヘッドを禁止したりするコストで分散を保存するかのいずれかです。
この問題に対処するために、生成中のレシーバビューのトークン化を監視し、あいまいさが実際に発生する場合にのみ修正リセットをトリガーする自己同期型曖昧化フレームワークであるReTokSync(Re-Tokenization Synchronization)を提案する。
トークン化アンビグニティがグローバルデシンクロナイゼーションよりも残差ビットエラーを分離する効果を補うことで、ReTokSyncはアンビグニティフリーな位置を完全に変更せず、基礎となるステガノグラフィーアルゴリズムと互換性を保っている。
英語と中国語の両方での実験では、ReTokSyncは分散セキュリティ(ゼロKL分散)、テキスト品質、埋め込み能力、実行時のステガノグラフィーベースラインに近づき、99.7\%以上の抽出精度を実現している。
この特性に基づいて、ReTokSyncがプライマリチャネルとして機能し、信頼性の高い補助チャネルが残りのエラーを補正し、評価されたすべての構成に対して100 %のエンド・ツー・エンド・リカバリを実現する2チャンネルの秘密通信機構を開発する。
関連論文リスト
- From Global to Local: Rethinking CLIP Feature Aggregation for Person Re-Identification [20.74226476678832]
中間パッチトークンとCLIPのテキスト埋め込み空間でパラメータ化されたアンカーベクトルを整列することで、同一性表現を再構築するSAGA-ReIDを提案する。
制御された実験は、2つの定性的に異なる条件下で凝集機構を分離する。
ベンチマーク評価では、CLIP-ReIDよりも標準設定と無視設定で一貫したゲインを確認している。
論文 参考訳(メタデータ) (2026-04-24T03:37:21Z) - Stability-Weighted Decoding for Diffusion Language Models [8.670026899042483]
既存のデコード戦略は、1つのデノナイジングステップで計算された静的な信頼度に依存し、時間的履歴を無視し、不安定なトークンを早めに解き放つ。
本研究では,時間的安定性をトークンスコアリングに組み込んだ学習自由なプラグアンドプレイ戦略であるStable-Weighted Decoding(SWD)を提案し,任意のスコアベースのデコーディングポリシーのためのユニバーサルモジュレータとして機能する。
論文 参考訳(メタデータ) (2026-04-18T17:04:10Z) - Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model [71.35577462669856]
拡散言語モデル(DLM)を用いた頑健で確実な言語ステガノグラフィーを提案する。
ステガノグラフ抽出中に擬似ランダム誤り訂正や近傍探索補正を含む誤り訂正戦略を導入する。
論文 参考訳(メタデータ) (2026-01-21T08:58:12Z) - StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs [54.229363096087866]
音声トークン化器は、意味不明な音響摂動に対して頑健ではない。
この不安定性は、脆い単一パス量子化アーキテクチャと遠い訓練信号の2つの欠陥に由来する。
コンセンサス駆動機構による安定性を実現するトークンライザであるStableTokenを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:32:51Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。