論文の概要: Conceptual Steganography
- arxiv url: http://arxiv.org/abs/2605.26537v1
- Date: Tue, 26 May 2026 04:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.664407
- Title: Conceptual Steganography
- Title(参考訳): 概念ステレオグラフィー
- Authors: Zhejian Zhou, Jonathan May,
- Abstract要約: ミスアライメントモデルは、人間の監督を抜けるチェーン・オブ・ソート(CoT)に隠蔽情報を埋め込むことができる。
本稿では,CoTの各ステップが高レベルの推論行動パターンを通じて情報を伝達する概念的ステガノグラフィを紹介する。
このバックドア通信チャネルは、標準のキーワードアプローチよりも強力なパラフレーズディフェンスに対して一貫して堅牢であることが示されている。
- 参考スコア(独自算出の注目度): 29.656447159968426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) emit Chains-of-Thought (CoTs) that drive much of their capability. However, the same sequence that carries useful reasoning can also covertly convey messages: a misaligned model may embed covert information in its CoT that slips through human supervision, a form of steganography known as encoded reasoning. Prior LM steganography schemes operate in the token or lexical space, and a content-preserving paraphraser is the canonical and effective defense in recent work. We introduce conceptual steganography, in which each step of a CoT carries information through patterns of high-level reasoning behavior, rather than through lexical choice. Across four model families and two reasoning domains, this backdoor communication channel is shown to be consistently more robust to a strong paraphrase defense than standard keyword approaches, and the encoding of information into CoTs does not affect their utility in the reasoning process. Having raised awareness of this new risk, we then demonstrate that a strategy-aware paraphraser can close much of the channel, highlighting new challenges and recommended defenses for ensuring faithful LLM reasoning in the wild.
- Abstract(参考訳): 言語モデル(LM)は、その能力の多くを駆動するChain-of-Thought(CoT)を出力する。
しかし、有用な推論を持つ同じシーケンスは、メッセージを隠蔽的に伝達することも可能である: ミスアライメントモデルは、人間の監督を抜けるCoTに隠蔽情報を埋め込むことができる。
従来のLMステガノグラフィースキームはトークンや語彙空間で動作し、コンテント保存パラフリーザーは最近の研究における標準的かつ効果的な防御である。
本稿では,CoTの各ステップが,語彙選択ではなく,高レベルの推論行動パターンを通じて情報を伝達する概念的ステガノグラフィを紹介する。
4つのモデルファミリと2つの推論領域にまたがって、このバックドア通信チャネルは標準的なキーワードアプローチよりも強力なパラフレーズディフェンスに対して一貫して堅牢であり、CoTへの情報のエンコーディングは推論プロセスにおける有用性に影響を与えない。
この新たなリスクに対する認識を高めた上で、戦略を意識したパラフレーズがチャネルの大部分を閉鎖できることを示し、新たな課題を強調し、野生における忠実なLSM推論を保証するための防御策を推奨する。
関連論文リスト
- Provably Secure Steganography Based on List Decoding [5.421129051557276]
ステガノグラフィーは、監視下の秘密通信のために、一見無害なキャリアに秘密のメッセージを埋め込む。
現在のセキュアなステガノグラフィースキームは、表紙と表紙の区別が難しいことを保証できる。
理論的に証明された高容量な確実なステガノグラフィー手法を提案する。
論文 参考訳(メタデータ) (2026-04-23T08:02:21Z) - STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model [71.35577462669856]
拡散言語モデル(DLM)を用いた頑健で確実な言語ステガノグラフィーを提案する。
ステガノグラフ抽出中に擬似ランダム誤り訂正や近傍探索補正を含む誤り訂正戦略を導入する。
論文 参考訳(メタデータ) (2026-01-21T08:58:12Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Robust Steganography from Large Language Models [1.5749416770494704]
頑健なステガノグラフィーの問題点について検討する。
任意の秘密メッセージを自然言語テキストに埋め込む構造を設計し,実装する。
論文 参考訳(メタデータ) (2025-04-11T21:06:36Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - Exploiting Reasoning Chains for Multi-hop Science Question Answering [51.86289192292466]
我々のフレームワークは、コーパス固有のアノテーションを必要とせずに説明可能な推論を行うことができる。
ローカルチェーン情報とグローバルチェーン情報の両方に関するTextitChain対応の損失は、生成されたチェーンが遠隔監視信号として機能するようにも設計されている。
論文 参考訳(メタデータ) (2021-09-07T07:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。