論文の概要: LLMs can hide text in other text of the same length
- arxiv url: http://arxiv.org/abs/2510.20075v3
- Date: Mon, 27 Oct 2025 13:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.62142
- Title: LLMs can hide text in other text of the same length
- Title(参考訳): LLMはテキストを同じ長さの他のテキストに隠せる
- Authors: Antonio Norelli, Michael Bronstein,
- Abstract要約: 意味のあるテキストは別のテキストの中に隠すことができる。
本稿では,大規模言語モデルを用いた簡便かつ効率的なプロトコルを提案する。
このようなプロトコルの存在は、権威的な意図からテキストを急進的に切り離すことを示し、さらに文書によるコミュニケーションに対する信頼を損なう。
- 参考スコア(独自算出の注目度): 4.428960078460508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A meaningful text can be hidden inside another, completely different yet still coherent and plausible, text of the same length. For example, a tweet containing a harsh political critique could be embedded in a tweet that celebrates the same political leader, or an ordinary product review could conceal a secret manuscript. This uncanny state of affairs is now possible thanks to Large Language Models, and in this paper we present a simple and efficient protocol to achieve it. We show that even modest 8-billion-parameter open-source LLMs are sufficient to obtain high-quality results, and a message as long as this abstract can be encoded and decoded locally on a laptop in seconds. The existence of such a protocol demonstrates a radical decoupling of text from authorial intent, further eroding trust in written communication, already shaken by the rise of LLM chatbots. We illustrate this with a concrete scenario: a company could covertly deploy an unfiltered LLM by encoding its answers within the compliant responses of a safe model. This possibility raises urgent questions for AI safety and challenges our understanding of what it means for a Large Language Model to know something.
- Abstract(参考訳): 意味のあるテキストは別のテキストの中に隠すことができる。
例えば、厳しい政治的批判を含むツイートを同じ政治指導者を祝うツイートに埋め込むか、通常の製品レビューが秘密の原稿を隠すことができる。
この不気味な状況は、大規模言語モデルのおかげで可能となり、本稿では、これを実現するためのシンプルで効率的なプロトコルを提示する。
我々は,8ビリオンパラメトリックのオープンソースLCMでも高品質な結果が得られることを示し,この抽象化がラップトップ上で数秒でローカルにエンコードされデコードされる限り,メッセージが送信されることを示した。
このようなプロトコルの存在は、LLMチャットボットの台頭によって既に揺らぎ、権威的な意図からテキストを根本的に切り離すことを示し、さらに文字によるコミュニケーションに対する信頼を損なう。
企業は、安全なモデルの準拠する応答にその回答をエンコードすることで、フィルタされていないLCMを隠蔽的にデプロイできる。
この可能性によって、AIの安全性に対する緊急の疑問が持ち上がり、大規模言語モデルが何かを知っていなければならない、という私たちの理解に挑戦します。
関連論文リスト
- Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。