論文の概要: A High-Capacity and Secure Disambiguation Algorithm for Neural Linguistic Steganography
- arxiv url: http://arxiv.org/abs/2510.02332v1
- Date: Fri, 26 Sep 2025 05:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.004969
- Title: A High-Capacity and Secure Disambiguation Algorithm for Neural Linguistic Steganography
- Title(参考訳): ニューラル言語ステレオグラフィーのための高容量・セキュア曖昧化アルゴリズム
- Authors: Yapei Feng, Feng Jiang, Shanhao Wu, Hua Zhong,
- Abstract要約: ニューラル言語ステガノグラフィーは、統計的検出不能を保ちながら、情報を自然のテキストに埋め込むことを目的としている。
最近のSyncPoolは、あいまいな候補のグループに対して粗い粒度の同期機構を用いることで、この曖昧さに対処している。
本稿では,SyncPoolの容量制限を克服し,保証可能なセキュリティ保証を維持したルックアヘッド同期法を提案する。
- 参考スコア(独自算出の注目度): 5.002412595399629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural linguistic steganography aims to embed information into natural text while preserving statistical undetectability. A fundamental challenge in this ffeld stems from tokenization ambiguity in modern tokenizers, which can lead to catastrophic decoding failures. The recent method, SyncPool, addresses this ambiguity by employing a coarse-grained synchronization mechanism over groups of ambiguous candidates. However, SyncPool sacriffces embedding capacity, as it utilizes the entire Shannon entropy of an ambiguous group solely for synchronization rather than for payload embedding. We propose a method named look-ahead Sync, which overcomes the capacity limitation of SyncPool while retaining its provable security guarantees. Our approach performs minimal synchronized sampling only on truly indistinguishable token sequences, while strategically preserving all other discernible paths to maximize embedding capacity. We provide theoretical proofs for the security of our method and analyze the gap between its achievable embedding capacity and the theoretical upper bound. Experiments on English (using Llama 3) and Chinese (using Qwen 2.5) benchmarks show that our method consistently approaches the theoretical capacity upper bound and signiffcantly outperforms SyncPool. The improvement in embedding rate exceeds 160% in English and 25% in Chinese, particularly in settings with larger candidate pools. This work represents a signiffcant step toward practical high-capacity provably secure linguistic steganography.
- Abstract(参考訳): ニューラル言語ステガノグラフィーは、統計的検出不能を保ちながら、情報を自然のテキストに埋め込むことを目的としている。
このフフェルトの根本的な課題は、現代のトークン化器におけるトークン化の曖昧さから来ており、破滅的な復号化の失敗につながる可能性がある。
最近のSyncPoolは、あいまいな候補のグループに対して粗い粒度の同期機構を用いることで、この曖昧さに対処する。
しかし、SyncPoolは、ペイロードの埋め込みではなく、同期のためだけにあいまいなグループのシャノンエントロピー全体を利用するため、埋め込み能力を持つ。
本稿では,SyncPoolの容量制限を克服し,保証可能なセキュリティ保証を維持したルックアヘッド同期法を提案する。
本手法は, 埋め込み容量を最大化するために, 全ての識別可能な経路を戦略的に保存しながら, 真に区別できないトークン列に対してのみ, 最小限の同期サンプリングを行う。
提案手法の安全性に関する理論的証明と,その達成可能な埋め込み能力と理論上界とのギャップを解析する。
英語(Llama 3)と中国語(Qwen 2.5)のベンチマークを用いて行った実験は、我々の手法が理論能力上界に一貫して接近し、SyncPoolを著しく上回ることを示した。
埋め込み率の改善は英語で160%、中国語で25%を超え、特に大きな候補プールのある環境では顕著である。
この研究は、実用的な高容量な言語ステガノグラフィーへの手掛かりとなる。
関連論文リスト
- SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Efficient Decoding Methods for Language Models on Encrypted Data [32.58944595512403]
ホモモルフィック暗号化(HE)は、セキュアな推論のために暗号化されたデータの計算を可能にする。
ニューラルテキスト生成にはargmaxやサンプリングのような復号法が必要である。
我々は,従来の手法に比べて暗号操作を減らし,実用的なグリージー復号を可能にする,HEフレンドリーなargmaxアルゴリズムであるCutmaxを導入する。
論文 参考訳(メタデータ) (2025-09-10T08:23:14Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Unbounded Gradients in Federated Leaning with Buffered Asynchronous
Aggregation [0.6526824510982799]
textitFedBuffアルゴリズムは、セキュアなアグリゲーションを通じてプライバシを保持しながら非同期更新を可能にする。
本稿では,データの不均一性,バッチサイズ,遅延を考慮したアルゴリズムの収束率に関する理論的解析を行う。
論文 参考訳(メタデータ) (2022-10-03T18:20:48Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。