論文の概要: The Steganographic Potentials of Language Models
- arxiv url: http://arxiv.org/abs/2505.03439v1
- Date: Tue, 06 May 2025 11:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.351422
- Title: The Steganographic Potentials of Language Models
- Title(参考訳): 言語モデルのステレオグラフィーの可能性
- Authors: Artem Karpov, Tinuade Adeleke, Seong Hah Cho, Natalia Perez-Campanero,
- Abstract要約: 大きな言語モデル(LLM)は、平文内にメッセージを隠せる(ステガノグラフィー)
強化学習(RL)によるLLMの微調整機能について検討する。
以上の結果から,現状のモデルでは,セキュリティとキャパシティの観点から初歩的ステガノグラフィー能力を示すが,明示的なアルゴリズムガイダンスにより情報隠蔽能力が著しく向上していることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential for large language models (LLMs) to hide messages within plain text (steganography) poses a challenge to detection and thwarting of unaligned AI agents, and undermines faithfulness of LLMs reasoning. We explore the steganographic capabilities of LLMs fine-tuned via reinforcement learning (RL) to: (1) develop covert encoding schemes, (2) engage in steganography when prompted, and (3) utilize steganography in realistic scenarios where hidden reasoning is likely, but not prompted. In these scenarios, we detect the intention of LLMs to hide their reasoning as well as their steganography performance. Our findings in the fine-tuning experiments as well as in behavioral non fine-tuning evaluations reveal that while current models exhibit rudimentary steganographic abilities in terms of security and capacity, explicit algorithmic guidance markedly enhances their capacity for information concealment.
- Abstract(参考訳): 大きな言語モデル(LLM)がプレーンテキスト(ステガノグラフィ)内にメッセージを隠蔽する可能性は、不整合AIエージェントの検出と妨害に挑戦し、LLMの推論の忠実さを損なう。
筆者らは, 強化学習(RL)により微調整されたLDMのステガノグラフィー能力について検討し, 1) 隠蔽符号化方式の開発, (2) 誘導されたときステガノグラフィーの活用, 3) 隠蔽推論の可能性があるが誘導しない現実的なシナリオにおけるステガノグラフィーの活用について検討した。
これらのシナリオでは,LSMの推論とステガノグラフィー性能を隠蔽する意図を検出する。
微調整実験および行動非微調整評価の結果、現在のモデルでは、セキュリティとキャパシティの観点から初歩的なステガノグラフィー能力を示すが、明示的なアルゴリズムガイダンスにより、情報隠蔽の能力が著しく向上することが明らかとなった。
関連論文リスト
- LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。
このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs [0.600808022072121]
他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。
エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。
このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-02T16:18:33Z) - Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-16T09:05:31Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Towards Next-Generation Steganalysis: LLMs Unleash the Power of Detecting Steganography [18.7168443402118]
言語ステガノグラフィーは、特にAI生成技術の出現と共に、メッセージを隠蔽するための便利な実装を提供する。
既存の手法は、記号統計学の側面から、ステガノグラフテキストと正規テキストの分布差を見つけることに限定されている。
本稿では,大規模言語モデル(LLM)のヒューマンライクなテキスト処理機能を用いて,人間の知覚との違いを実現することを提案する。
論文 参考訳(メタデータ) (2024-05-15T04:52:09Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Slot Induction via Pre-trained Language Model Probing and Multi-level
Contrastive Learning [62.839109775887025]
トークンレベルのスロットアノテーションの明示的な知識なしでスロット境界を誘導することを目的としたスロットインジェクション(SI)タスク。
PLMから抽出した教師なし意味知識を活用するために、教師なし事前学習言語モデル(PLM)探索とコントラスト学習機構を活用することを提案する。
提案手法は,2つのNLUベンチマークデータセット上でトークンレベルの教師付きモデルとのギャップを埋めることができ,SIタスクに有効であることが示されている。
論文 参考訳(メタデータ) (2023-08-09T05:08:57Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。