論文の概要: NEST: Nascent Encoded Steganographic Thoughts
- arxiv url: http://arxiv.org/abs/2602.14095v1
- Date: Sun, 15 Feb 2026 11:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.651067
- Title: NEST: Nascent Encoded Steganographic Thoughts
- Title(参考訳): NEST、新たにステガノグラフィーの思考をコード化
- Authors: Artem Karpov,
- Abstract要約: 本研究は,リスクアセスメントと展開方針を通知するステガノグラフィー推論の可能性を探るものである。
4つのデータセット間で、回避率、拒否率、符号化忠実度、隠されたタスク精度を測定する。
現在のモデルは、複雑な数学や算術的なタスクの隠れた推論をまだ維持できないことが分かっています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monitoring chain-of-thought (CoT) reasoning is a foundational safety technique for large language model (LLM) agents; however, this oversight is compromised if models learn to conceal their reasoning. We explore the potential for steganographic CoT -- where models hide secret reasoning within innocuous text -- to inform risk assessment and deployment policies. We systematically evaluate the limits of steganographic capabilities across 28 models, ranging from past generations to the current frontier. We measure monitor evasion, refusal rates, encoding fidelity, and hidden task accuracy across four datasets, comparing steganographic acrostics against plain reasoning and filler-token baselines. We find that current models cannot yet sustain hidden reasoning for complex math and arithmetic tasks. However, in a simplified counting experiment, Claude Opus 4.5 achieved 92% accuracy on the hidden task, demonstrating nascent capability. Notably, in rare cases (<1%), GPT-5.2 might refuse steganographic instructions while simultaneously complying with them. Our findings underscore the need for continuous evaluation of steganographic risks. This study provides a methodology to preemptively detect and prevent hidden reasoning that might empower misaligned scheming and deceptive behavior.
- Abstract(参考訳): チェーン・オブ・シークレット(CoT)推論の監視は、大規模言語モデル(LLM)エージェントの基本的な安全性技術であるが、モデルが推論を隠蔽することを学ぶと、この監視は損なわれる。
リスクアセスメントとデプロイメントポリシを通知するために、モデルが無害なテキスト内で秘密の推論を隠す、ステガノグラフのCoTの可能性を探る。
我々は,過去の世代から現在のフロンティアまで,28モデルにわたるステガノグラフィー能力の限界を体系的に評価した。
本研究では,4つのデータセット間での回避,拒絶率,符号化忠実度,隠されたタスク精度を計測し,ステガノグラフのアクロスティックスと平易な推論とフィラートーケンベースラインを比較した。
現在のモデルは、複雑な数学や算術的なタスクの隠れた推論をまだ維持できないことが分かっています。
しかし、単純なカウント実験では、クロードオプス4.5は隠されたタスクに対して92%の精度を達成し、初期の能力を示した。
特に、まれな例(<1%)では、GPT-5.2は、これらを同時に遵守しながら、ステガノグラフィーの指示を拒否する可能性がある。
本研究は, ステガノグラフィーリスクの連続的評価の必要性を浮き彫りにした。
本研究は、不正に一致した計画と偽りの行動に影響を及ぼす可能性のある隠された推論を事前に検出し、予防するための方法論を提供する。
関連論文リスト
- False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize [30.448801772258644]
大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
論文 参考訳(メタデータ) (2025-09-04T05:15:55Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - The Steganographic Potentials of Language Models [0.0]
大きな言語モデル(LLM)は、平文内にメッセージを隠せる(ステガノグラフィー)
強化学習(RL)によるLLMの微調整機能について検討する。
以上の結果から,現状のモデルでは,セキュリティとキャパシティの観点から初歩的ステガノグラフィー能力を示すが,明示的なアルゴリズムガイダンスにより情報隠蔽能力が著しく向上していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-06T11:25:52Z) - Hide in Plain Sight: Clean-Label Backdoor for Auditing Membership Inference [16.893873979953593]
本研究では,ステルスデータ監査のための新しいクリーンラベルバックドア方式を提案する。
我々のアプローチでは、ターゲットモデルの振る舞いを模倣するシャドウモデルによって生成される最適なトリガを用いる。
提案手法は,ブラックボックスアクセスによるロバストなデータ監査を可能にし,多様なデータセット間で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-11-24T20:56:18Z) - Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - Natias: Neuron Attribution based Transferable Image Adversarial Steganography [62.906821876314275]
逆行性ステガナグラフィーは、ディープラーニングに基づくステガナリシスを効果的に欺く能力から、かなりの注目を集めている。
そこで我々は,Natias という新たな逆向きステガノグラフィー手法を提案する。
提案手法は既存の逆向きステガノグラフィーフレームワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-08T04:09:51Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。