論文の概要: A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring
- arxiv url: http://arxiv.org/abs/2602.23163v1
- Date: Thu, 26 Feb 2026 16:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.770537
- Title: A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring
- Title(参考訳): ステガノグラフィーの決定論的形式化とLCMモニタリングへの応用
- Authors: Usman Anwar, Julianna Piskorz, David D. Baek, David Africa, Jim Weatherall, Max Tegmark, Christian Schroeder de Witt, Mihaela van der Schaar, David Krueger,
- Abstract要約: 我々は、ステガノグラフィーの代替的、テキストbfdecision-theoretic viewを提案する。
我々の中心的な洞察は、ステガノグラフィーは、隠されたコンテンツを復号し、復号できないエージェント間の使用可能な情報の非対称性を生み出すことである。
ステガノグラフィー信号の下流の有用性を、隠されたコンテンツを復号化および復号化できないエージェントと比較することにより、ステガノグラフィーを定量化する尺度である textbfsteganography gap を定義する。
- 参考スコア(独自算出の注目度): 46.351075821275806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are beginning to show steganographic capabilities. Such capabilities could allow misaligned models to evade oversight mechanisms. Yet principled methods to detect and quantify such behaviours are lacking. Classical definitions of steganography, and detection methods based on them, require a known reference distribution of non-steganographic signals. For the case of steganographic reasoning in LLMs, knowing such a reference distribution is not feasible; this renders these approaches inapplicable. We propose an alternative, \textbf{decision-theoretic view of steganography}. Our central insight is that steganography creates an asymmetry in usable information between agents who can and cannot decode the hidden content (present within a steganographic signal), and this otherwise latent asymmetry can be inferred from the agents' observable actions. To formalise this perspective, we introduce generalised $\mathcal{V}$-information: a utilitarian framework for measuring the amount of usable information within some input. We use this to define the \textbf{steganographic gap} -- a measure that quantifies steganography by comparing the downstream utility of the steganographic signal to agents that can and cannot decode the hidden content. We empirically validate our formalism, and show that it can be used to detect, quantify, and mitigate steganographic reasoning in LLMs.
- Abstract(参考訳): 大規模な言語モデルは、ステガノグラフィーの能力を示し始めている。
このような機能により、ミスアライメントされたモデルが監視機構を回避することができる。
しかし、そのような振る舞いを検知し、定量化する原則的な方法が欠如している。
ステガノグラフィーの古典的定義とそれらに基づく検出法は、非ステガノグラフィー信号の既知の参照分布を必要とする。
LLMにおけるステガノグラフィー推論の場合、そのような参照分布を知ることは不可能であり、これらのアプローチは適用不可能である。
我々は、ステガノグラフィーの代替的考え方である「textbf{decision-theoretic view of steganography」を提案する。
我々の中心的な洞察は、ステガノグラフィーは、隠された内容(現在、ステガノグラフィー信号内で)を復号できないエージェント間の使用可能な情報の非対称性を生成し、そうでなければ、エージェントの観測可能な行動からこの非対称性を推測できるということである。
この視点を定式化するために、一般化された$\mathcal{V}$-information: ある入力で使用可能な情報の量を測定するための実用的枠組みを導入する。
これは、ステガノグラフィー信号の下流の有用性を、隠されたコンテンツを復号化および復号化できないエージェントと比較することにより、ステガノグラフィーを定量化する尺度である。
我々は、我々のフォーマリズムを実証的に検証し、LLMにおけるステガノグラフィー推論の検出、定量化、緩和に使用できることを示す。
関連論文リスト
- NEST: Nascent Encoded Steganographic Thoughts [0.0]
本研究は,リスクアセスメントと展開方針を通知するステガノグラフィー推論の可能性を探るものである。
4つのデータセット間で、回避率、拒否率、符号化忠実度、隠されたタスク精度を測定する。
現在のモデルは、複雑な数学や算術的なタスクの隠れた推論をまだ維持できないことが分かっています。
論文 参考訳(メタデータ) (2026-02-15T11:05:18Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Early Signs of Steganographic Capabilities in Frontier LLMs [7.3833268176766245]
大規模な言語モデルは、ステガノグラフィーによる監視を避けることができる。
我々は、エンコードされたメッセージの送信と、エンコードされた推論の実行という、2つのタイプのステガノグラフィに焦点を当てた。
モデルが単純な状態追跡問題において基本符号化推論を実行できるという早期の兆候を見出した。
論文 参考訳(メタデータ) (2025-07-03T15:54:55Z) - The Steganographic Potentials of Language Models [0.0]
大きな言語モデル(LLM)は、平文内にメッセージを隠せる(ステガノグラフィー)
強化学習(RL)によるLLMの微調整機能について検討する。
以上の結果から,現状のモデルでは,セキュリティとキャパシティの観点から初歩的ステガノグラフィー能力を示すが,明示的なアルゴリズムガイダンスにより情報隠蔽能力が著しく向上していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-06T11:25:52Z) - Provably Secure Public-Key Steganography Based on Admissible Encoding [66.38591467056939]
一見無害な秘密文の中に秘密メッセージを隠蔽する技術は、Proprovably secure steganography (PSS)として知られている。
PSSは対称鍵ステガノグラフィーから公開鍵ステガノグラフィーへと進化し、事前共有鍵の必要なしに機能する。
本稿では,許容エンコーディングに基づくより一般的な楕円曲線公開鍵ステガノグラフィ法を提案する。
論文 参考訳(メタデータ) (2025-04-28T03:42:25Z) - Natias: Neuron Attribution based Transferable Image Adversarial Steganography [62.906821876314275]
逆行性ステガナグラフィーは、ディープラーニングに基づくステガナリシスを効果的に欺く能力から、かなりの注目を集めている。
そこで我々は,Natias という新たな逆向きステガノグラフィー手法を提案する。
提案手法は既存の逆向きステガノグラフィーフレームワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-08T04:09:51Z) - Provably Robust and Secure Steganography in Asymmetric Resource Scenario [30.12327233257552]
現在の安全なステガノグラフィーアプローチでは、プライベートメッセージの隠蔽と抽出のためにエンコーダとデコーダのペアが必要となる。
本稿では,非対称な資源設定のための確実かつセキュアなステガノグラフィーフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:32:00Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。