Fugu-MT 論文翻訳(概要): Early Signs of Steganographic Capabilities in Frontier LLMs

論文の概要: Early Signs of Steganographic Capabilities in Frontier LLMs

arxiv url: http://arxiv.org/abs/2507.02737v1
Date: Thu, 03 Jul 2025 15:54:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-04 15:37:16.575131
Title: Early Signs of Steganographic Capabilities in Frontier LLMs
Title（参考訳）: フロンティアLSMにおける電顕能力の早期兆候
Authors: Artur Zolkowski, Kei Nishimura-Gasparian, Robert McCarthy, Roland S. Zimmermann, David Lindner,
Abstract要約: 我々は、フロンティア大言語モデル(LLM)におけるステガノグラフィー機能を評価する。我々は、エンコードされたメッセージの送信と、エンコードされた推論の実行という、2つのタイプのステガノグラフィに焦点を当てた。現在のモデルでは、モニターの通知なしに短いメッセージを出力にエンコードできないことが分かりました。さらに、モデルが単純な状態追跡問題において、基本符号化推論を実行できるという早期の兆候も見出す。
参考スコア（独自算出の注目度）: 6.853191598453388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monitoring Large Language Model (LLM) outputs is crucial for mitigating risks from misuse and misalignment. However, LLMs could evade monitoring through steganography: Encoding hidden information within seemingly benign generations. In this paper, we evaluate the steganography capabilities in frontier LLMs to better understand the risk they pose. We focus on two types of steganography: passing encoded messages and performing encoded reasoning. We find that current models are unable to encode short messages in their outputs without a monitor noticing under standard affordances. They can succeed, however, if given additional affordances such as using an unmonitored scratchpad and coordinating on what encoding scheme to use. We additionally find early signs that models can perform basic encoded reasoning in a simple state-tracking problem. This includes some ability to reason with their own and pre-defined schemes, including encoding schemes such as Hexadecimal. Despite this, they can rarely hide reasoning subtly within a cover task to fool a monitor. Overall, our results indicate that current LLMs exhibit nascent steganographic capabilities. While these capabilities are likely insufficient to bypass well-designed monitors at present, this could change in the future.
Abstract（参考訳）: 大規模言語モデル(LLM)のアウトプットのモニタリングは、誤用や悪用によるリスク軽減に不可欠である。しかし、LSMはステガノグラフィーによって監視を回避することができる。本稿では,フロンティアLSMにおけるステガノグラフィー機能の評価を行い,それらがもたらすリスクをよりよく理解する。我々は、エンコードされたメッセージの送信と、エンコードされた推論の実行という、2つのタイプのステガノグラフィに焦点を当てた。現在のモデルでは、標準価格でモニタが気付かなくても、短いメッセージを出力にエンコードできないことが分かりました。しかし、監視されていないスクラッチパッドの使用や、使用するエンコーディングスキームの調整など、追加の余裕があれば成功できる。さらに、モデルが単純な状態追跡問題において、基本符号化推論を実行できるという早期の兆候も見出す。これには、Hexadecimalのようなエンコーディングスキームを含む、独自の事前定義されたスキームで推論する機能が含まれる。それにもかかわらず、彼らはモニターを騙すためにカバータスク内で微妙に推論を隠すことはめったにない。以上の結果から,現在のLSMは早期のステガノグラフィー能力を示すことが明らかとなった。これらの機能は、現在よく設計されたモニターをバイパスするには不十分である可能性が高いが、将来的には変更される可能性がある。

関連論文リスト

RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors? [3.661279101881241]
RL-Obfuscationを導入し、LLMを強化学習により微調整し、潜時空間モニタをバイパスする。トークンレベルの潜時空間モニタは、この攻撃に対して非常に脆弱であることがわかった。本研究では,同一タイプのモニタに対して,単一の静的モニタの一般化を回避するために訓練された敵ポリシーを示す。
論文参考訳（メタデータ） (2025-06-17T07:22:20Z)
The Steganographic Potentials of Language Models [0.0]
大きな言語モデル(LLM)は、平文内にメッセージを隠せる(ステガノグラフィー) 強化学習(RL)によるLLMの微調整機能について検討する。以上の結果から,現状のモデルでは,セキュリティとキャパシティの観点から初歩的ステガノグラフィー能力を示すが,明示的なアルゴリズムガイダンスにより情報隠蔽能力が著しく向上していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-06T11:25:52Z)
Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文参考訳（メタデータ） (2025-03-14T23:50:34Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか? 我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文参考訳（メタデータ） (2024-06-26T01:16:12Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文参考訳（メタデータ） (2024-06-04T16:49:06Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Dynamically Allocated Interval-Based Generative Linguistic Steganography with Roulette Wheel [10.72286166021398]
既存の言語ステガノグラフィースキームは、しばしば候補プール内のトークンの条件付き確率(CP)を見落としている。本稿では, DAIRstegaと呼ばれる, 割り当てられた間隔に基づくスキームを提案する。
論文参考訳（メタデータ） (2024-01-28T13:21:44Z)
DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial Natural Language Instructions [27.489622263456983]
DeceptPromptは、コードLLMを駆動し、脆弱性のある機能の正しいコードを生成する、逆の自然言語命令を生成するアルゴリズムである。最適化プレフィックス/サフィックスを適用する場合、アタック成功率(ASR)はプレフィックス/サフィックスを適用せずに平均50%向上する。
論文参考訳（メタデータ） (2023-12-07T22:19:06Z)
Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs [6.295207672539996]
検知器の基準テキストや出力にアクセス可能な攻撃者は、検知器の訓練を完全にフラストレーションできることを示す。我々は、RNN によるテキスト GAN から LLM への変換の誘惑に対して警告する。これらの結果は、生成言語モデルの悪意的使用の検出と防止に重要な意味を持つ。
論文参考訳（メタデータ） (2023-04-18T13:05:01Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。