Fugu-MT 論文翻訳(概要): A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring

論文の概要: A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring

arxiv url: http://arxiv.org/abs/2602.23163v1
Date: Thu, 26 Feb 2026 16:27:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.770537
Title: A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring
Title（参考訳）: ステガノグラフィーの決定論的形式化とLCMモニタリングへの応用
Authors: Usman Anwar, Julianna Piskorz, David D. Baek, David Africa, Jim Weatherall, Max Tegmark, Christian Schroeder de Witt, Mihaela van der Schaar, David Krueger,
Abstract要約: 我々は、ステガノグラフィーの代替的、テキストbfdecision-theoretic viewを提案する。我々の中心的な洞察は、ステガノグラフィーは、隠されたコンテンツを復号し、復号できないエージェント間の使用可能な情報の非対称性を生み出すことである。ステガノグラフィー信号の下流の有用性を、隠されたコンテンツを復号化および復号化できないエージェントと比較することにより、ステガノグラフィーを定量化する尺度である textbfsteganography gap を定義する。
参考スコア（独自算出の注目度）: 46.351075821275806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are beginning to show steganographic capabilities. Such capabilities could allow misaligned models to evade oversight mechanisms. Yet principled methods to detect and quantify such behaviours are lacking. Classical definitions of steganography, and detection methods based on them, require a known reference distribution of non-steganographic signals. For the case of steganographic reasoning in LLMs, knowing such a reference distribution is not feasible; this renders these approaches inapplicable. We propose an alternative, \textbf{decision-theoretic view of steganography}. Our central insight is that steganography creates an asymmetry in usable information between agents who can and cannot decode the hidden content (present within a steganographic signal), and this otherwise latent asymmetry can be inferred from the agents' observable actions. To formalise this perspective, we introduce generalised $\mathcal{V}$-information: a utilitarian framework for measuring the amount of usable information within some input. We use this to define the \textbf{steganographic gap} -- a measure that quantifies steganography by comparing the downstream utility of the steganographic signal to agents that can and cannot decode the hidden content. We empirically validate our formalism, and show that it can be used to detect, quantify, and mitigate steganographic reasoning in LLMs.
Abstract（参考訳）: 大規模な言語モデルは、ステガノグラフィーの能力を示し始めている。このような機能により、ミスアライメントされたモデルが監視機構を回避することができる。しかし、そのような振る舞いを検知し、定量化する原則的な方法が欠如している。ステガノグラフィーの古典的定義とそれらに基づく検出法は、非ステガノグラフィー信号の既知の参照分布を必要とする。 LLMにおけるステガノグラフィー推論の場合、そのような参照分布を知ることは不可能であり、これらのアプローチは適用不可能である。我々は、ステガノグラフィーの代替的考え方である「textbf{decision-theoretic view of steganography」を提案する。我々の中心的な洞察は、ステガノグラフィーは、隠された内容(現在、ステガノグラフィー信号内で)を復号できないエージェント間の使用可能な情報の非対称性を生成し、そうでなければ、エージェントの観測可能な行動からこの非対称性を推測できるということである。この視点を定式化するために、一般化された$\mathcal{V}$-information: ある入力で使用可能な情報の量を測定するための実用的枠組みを導入する。これは、ステガノグラフィー信号の下流の有用性を、隠されたコンテンツを復号化および復号化できないエージェントと比較することにより、ステガノグラフィーを定量化する尺度である。我々は、我々のフォーマリズムを実証的に検証し、LLMにおけるステガノグラフィー推論の検出、定量化、緩和に使用できることを示す。

関連論文リスト

NEST: Nascent Encoded Steganographic Thoughts [0.0]
本研究は,リスクアセスメントと展開方針を通知するステガノグラフィー推論の可能性を探るものである。 4つのデータセット間で、回避率、拒否率、符号化忠実度、隠されたタスク精度を測定する。現在のモデルは、複雑な数学や算術的なタスクの隠れた推論をまだ維持できないことが分かっています。
論文参考訳（メタデータ） (2026-02-15T11:05:18Z)
Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文参考訳（メタデータ） (2025-10-11T14:09:24Z)
GALAX: Graph-Augmented Language Model for Explainable Reinforcement-Guided Subgraph Reasoning in Precision Medicine [31.561998419001124]
精密医療では、量的マルチオミックな特徴、トポロジカルコンテキスト、テキスト生物学的知識が、疾患クリティカルなシグナル伝達経路や標的を特定する上で重要な役割を担っている。我々は、事前学習されたグラフニューラルネットワーク(GNN)をLLM(Large Language Models)に統合する革新的なフレームワークであるGALAXを提案する。アプリケーションとして,CRISPRを識別したターゲット,マルチオミックプロファイル,および多様ながん細胞株のバイオメディカルグラフ知識を組み合わせたベンチマークであるTarget-QAも導入した。
論文参考訳（メタデータ） (2025-09-25T09:20:58Z)
ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。 ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文参考訳（メタデータ） (2025-08-02T15:21:26Z)
Early Signs of Steganographic Capabilities in Frontier LLMs [7.3833268176766245]
大規模な言語モデルは、ステガノグラフィーによる監視を避けることができる。我々は、エンコードされたメッセージの送信と、エンコードされた推論の実行という、2つのタイプのステガノグラフィに焦点を当てた。モデルが単純な状態追跡問題において基本符号化推論を実行できるという早期の兆候を見出した。
論文参考訳（メタデータ） (2025-07-03T15:54:55Z)
The Steganographic Potentials of Language Models [0.0]
大きな言語モデル(LLM)は、平文内にメッセージを隠せる(ステガノグラフィー) 強化学習(RL)によるLLMの微調整機能について検討する。以上の結果から,現状のモデルでは,セキュリティとキャパシティの観点から初歩的ステガノグラフィー能力を示すが,明示的なアルゴリズムガイダンスにより情報隠蔽能力が著しく向上していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-06T11:25:52Z)
Provably Secure Public-Key Steganography Based on Admissible Encoding [66.38591467056939]
一見無害な秘密文の中に秘密メッセージを隠蔽する技術は、Proprovably secure steganography (PSS)として知られている。 PSSは対称鍵ステガノグラフィーから公開鍵ステガノグラフィーへと進化し、事前共有鍵の必要なしに機能する。本稿では,許容エンコーディングに基づくより一般的な楕円曲線公開鍵ステガノグラフィ法を提案する。
論文参考訳（メタデータ） (2025-04-28T03:42:25Z)
Natias: Neuron Attribution based Transferable Image Adversarial Steganography [62.906821876314275]
逆行性ステガナグラフィーは、ディープラーニングに基づくステガナリシスを効果的に欺く能力から、かなりの注目を集めている。そこで我々は,Natias という新たな逆向きステガノグラフィー手法を提案する。提案手法は既存の逆向きステガノグラフィーフレームワークとシームレスに統合できる。
論文参考訳（メタデータ） (2024-09-08T04:09:51Z)
Provably Robust and Secure Steganography in Asymmetric Resource Scenario [30.12327233257552]
現在の安全なステガノグラフィーアプローチでは、プライベートメッセージの隠蔽と抽出のためにエンコーダとデコーダのペアが必要となる。本稿では,非対称な資源設定のための確実かつセキュアなステガノグラフィーフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-18T13:32:00Z)
SUDS: Sanitizing Universal and Dependent Steganography [4.067706508297839]
ステガノグラフィー(英: Steganography)は、隠蔽通信に最もよく用いられる情報隠蔽の一種である。現在の保護機構はステガナシスに依存しているが、これらのアプローチは事前の知識に依存している。この研究は、普遍的および依存的ステガノグラフィーを衛生化できるSUDSと呼ばれる深層学習衛生技術に焦点を当てている。
論文参考訳（メタデータ） (2023-09-23T19:39:44Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Assessing glaucoma in retinal fundus photographs using Deep Feature Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文参考訳（メタデータ） (2021-10-04T16:06:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。