論文の概要: Early Signs of Steganographic Capabilities in Frontier LLMs
- arxiv url: http://arxiv.org/abs/2507.02737v1
- Date: Thu, 03 Jul 2025 15:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.575131
- Title: Early Signs of Steganographic Capabilities in Frontier LLMs
- Title(参考訳): フロンティアLSMにおける電顕能力の早期兆候
- Authors: Artur Zolkowski, Kei Nishimura-Gasparian, Robert McCarthy, Roland S. Zimmermann, David Lindner,
- Abstract要約: 我々は、フロンティア大言語モデル(LLM)におけるステガノグラフィー機能を評価する。
我々は、エンコードされたメッセージの送信と、エンコードされた推論の実行という、2つのタイプのステガノグラフィに焦点を当てた。
現在のモデルでは、モニターの通知なしに短いメッセージを出力にエンコードできないことが分かりました。
さらに、モデルが単純な状態追跡問題において、基本符号化推論を実行できるという早期の兆候も見出す。
- 参考スコア(独自算出の注目度): 6.853191598453388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monitoring Large Language Model (LLM) outputs is crucial for mitigating risks from misuse and misalignment. However, LLMs could evade monitoring through steganography: Encoding hidden information within seemingly benign generations. In this paper, we evaluate the steganography capabilities in frontier LLMs to better understand the risk they pose. We focus on two types of steganography: passing encoded messages and performing encoded reasoning. We find that current models are unable to encode short messages in their outputs without a monitor noticing under standard affordances. They can succeed, however, if given additional affordances such as using an unmonitored scratchpad and coordinating on what encoding scheme to use. We additionally find early signs that models can perform basic encoded reasoning in a simple state-tracking problem. This includes some ability to reason with their own and pre-defined schemes, including encoding schemes such as Hexadecimal. Despite this, they can rarely hide reasoning subtly within a cover task to fool a monitor. Overall, our results indicate that current LLMs exhibit nascent steganographic capabilities. While these capabilities are likely insufficient to bypass well-designed monitors at present, this could change in the future.
- Abstract(参考訳): 大規模言語モデル(LLM)のアウトプットのモニタリングは、誤用や悪用によるリスク軽減に不可欠である。
しかし、LSMはステガノグラフィーによって監視を回避することができる。
本稿では,フロンティアLSMにおけるステガノグラフィー機能の評価を行い,それらがもたらすリスクをよりよく理解する。
我々は、エンコードされたメッセージの送信と、エンコードされた推論の実行という、2つのタイプのステガノグラフィに焦点を当てた。
現在のモデルでは、標準価格でモニタが気付かなくても、短いメッセージを出力にエンコードできないことが分かりました。
しかし、監視されていないスクラッチパッドの使用や、使用するエンコーディングスキームの調整など、追加の余裕があれば成功できる。
さらに、モデルが単純な状態追跡問題において、基本符号化推論を実行できるという早期の兆候も見出す。
これには、Hexadecimalのようなエンコーディングスキームを含む、独自の事前定義されたスキームで推論する機能が含まれる。
それにもかかわらず、彼らはモニターを騙すためにカバータスク内で微妙に推論を隠すことはめったにない。
以上の結果から,現在のLSMは早期のステガノグラフィー能力を示すことが明らかとなった。
これらの機能は、現在よく設計されたモニターをバイパスするには不十分である可能性が高いが、将来的には変更される可能性がある。
関連論文リスト
- The Steganographic Potentials of Language Models [0.0]
大きな言語モデル(LLM)は、平文内にメッセージを隠せる(ステガノグラフィー)
強化学習(RL)によるLLMの微調整機能について検討する。
以上の結果から,現状のモデルでは,セキュリティとキャパシティの観点から初歩的ステガノグラフィー能力を示すが,明示的なアルゴリズムガイダンスにより情報隠蔽能力が著しく向上していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-06T11:25:52Z) - Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。
グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。
提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Dynamically Allocated Interval-Based Generative Linguistic Steganography with Roulette Wheel [10.72286166021398]
既存の言語ステガノグラフィースキームは、しばしば候補プール内のトークンの条件付き確率(CP)を見落としている。
本稿では, DAIRstegaと呼ばれる, 割り当てられた間隔に基づくスキームを提案する。
論文 参考訳(メタデータ) (2024-01-28T13:21:44Z) - Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to
Fine-Tune and Hard to Detect with other LLMs [6.295207672539996]
検知器の基準テキストや出力にアクセス可能な攻撃者は、検知器の訓練を完全にフラストレーションできることを示す。
我々は、RNN によるテキスト GAN から LLM への変換の誘惑に対して警告する。
これらの結果は、生成言語モデルの悪意的使用の検出と防止に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-04-18T13:05:01Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。