論文の概要: LLMs can hide text in other text of the same length.ipynb
- arxiv url: http://arxiv.org/abs/2510.20075v1
- Date: Wed, 22 Oct 2025 23:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.941107
- Title: LLMs can hide text in other text of the same length.ipynb
- Title(参考訳): LLMは、同じ長さの他のテキストにテキストを隠せる。
- Authors: Antonio Norelli, Michael Bronstein,
- Abstract要約: 意味のあるテキストは別のテキストの中に隠すことができる。
本稿では,大規模言語モデルを用いた簡便かつ効率的なプロトコルを提案する。
このようなプロトコルの存在は、権威的な意図からテキストを急進的に切り離すことを示し、さらに文書によるコミュニケーションに対する信頼を損なう。
- 参考スコア(独自算出の注目度): 4.428960078460508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A meaningful text can be hidden inside another, completely different yet still coherent and plausible, text of the same length. For example, a tweet containing a harsh political critique could be embedded in a tweet that celebrates the same political leader, or an ordinary product review could conceal a secret manuscript. This uncanny state of affairs is now possible thanks to Large Language Models, and in this paper we present a simple and efficient protocol to achieve it. We show that even modest 8-billion-parameter open-source LLMs are sufficient to obtain high-quality results, and a message as long as this abstract can be encoded and decoded locally on a laptop in seconds. The existence of such a protocol demonstrates a radical decoupling of text from authorial intent, further eroding trust in written communication, already shaken by the rise of LLM chatbots. We illustrate this with a concrete scenario: a company could covertly deploy an unfiltered LLM by encoding its answers within the compliant responses of a safe model. This possibility raises urgent questions for AI safety and challenges our understanding of what it means for a Large Language Model to know something.
- Abstract(参考訳): 意味のあるテキストは別のテキストの中に隠すことができる。
例えば、厳しい政治的批判を含むツイートを同じ政治指導者を祝うツイートに埋め込むか、通常の製品レビューが秘密の原稿を隠すことができる。
この不気味な状況は、大規模言語モデルのおかげで可能となり、本稿では、これを実現するためのシンプルで効率的なプロトコルを提示する。
我々は,8ビリオンパラメトリックのオープンソースLCMでも高品質な結果が得られることを示し,この抽象化がラップトップ上で数秒でローカルにエンコードされデコードされる限り,メッセージが送信されることを示した。
このようなプロトコルの存在は、LLMチャットボットの台頭によって既に揺らぎ、権威的な意図からテキストを根本的に切り離すことを示し、さらに文字によるコミュニケーションに対する信頼を損なう。
企業は、安全なモデルの準拠する応答にその回答をエンコードすることで、フィルタされていないLCMを隠蔽的にデプロイできる。
この可能性によって、AIの安全性に対する緊急の疑問が持ち上がり、大規模言語モデルが何かを知っていなければならない、という私たちの理解に挑戦します。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - AI "News" Content Farms Are Easy to Make and Hard to Detect: A Case Study in Italian [18.410994374810105]
大規模言語モデル (LLMs) は、実際のニュース記事に伝達可能な合成テキストを生成するために「コンテンツファーム」モデル (CFMs) として使われることが多い。
Llama (v1) は、主に英語で訓練されており、イタリア語の母語話者が合成語として識別するのに苦労するニュースのようなテキストを生成するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-06-17T22:19:00Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [85.18213923151717]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。
本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文 参考訳(メタデータ) (2023-08-12T04:05:57Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。