論文の概要: Large Language Models as Carriers of Hidden Messages
- arxiv url: http://arxiv.org/abs/2406.02481v4
- Date: Tue, 24 Sep 2024 12:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:46:22.551850
- Title: Large Language Models as Carriers of Hidden Messages
- Title(参考訳): 隠れメッセージのキャリアとしての大規模言語モデル
- Authors: Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki,
- Abstract要約: 単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Simple fine-tuning can embed hidden text into large language models (LLMs), which is revealed only when triggered by a specific query. Applications include LLM fingerprinting, where a unique identifier is embedded to verify licensing compliance, and steganography, where the LLM carries hidden messages disclosed through a trigger query. Our work demonstrates that embedding hidden text via fine-tuning, although seemingly secure due to the vast number of potential triggers, is vulnerable to extraction through analysis of the LLM's output decoding process. We introduce an extraction attack called Unconditional Token Forcing (UTF), which iteratively feeds tokens from the LLM's vocabulary to reveal sequences with high token probabilities, indicating hidden text candidates. We also present Unconditional Token Forcing Confusion (UTFC), a defense paradigm that makes hidden text resistant to all known extraction attacks without degrading the general performance of LLMs compared to standard fine-tuning. UTFC has both benign (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels).
- Abstract(参考訳): 単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
アプリケーションには、ライセンスコンプライアンスを検証するためにユニークな識別子が埋め込まれたLLMフィンガープリントや、トリガークエリを通じてLLMが隠されたメッセージを運ぶステガノグラフィなどがある。
我々の研究は、隠れテキストを微調整で埋め込むことは、非常に多くの潜在的なトリガーによって安全であるように見えるが、LCMの出力復号プロセスの分析を通じて、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
また,LLMの汎用性能を標準微調整と比較して劣化させることなく,すべての既知の抽出攻撃に対して隠れテキストに耐性を持たせる防衛パラダイムである Unconditional Token Forcing Confusion (UTFC) を提案する。
UTFCには良性(LLMフィンガープリントの改善)と良性(LLMを使用して秘密通信チャネルを作成する)の両方がある。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Identifying the Source of Generation for Large Language Models [21.919661430250798]
LLM(Large Language Model)は、複数の文書ソースからのテキストを記憶する言語である。
LLMは生成されたコンテンツに関する文書情報を提供できない。
この研究は、デコードステップでトークンレベルのソース識別を導入する。
論文 参考訳(メタデータ) (2024-07-05T08:52:15Z) - A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを埋め込みモデルに入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致します。
この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。
最初のプリンシパルコンポーネントを調整することで、テキストの埋め込みをキートークンと整列することができます。
論文 参考訳(メタデータ) (2024-06-25T08:55:12Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。
これにより、LDMがデータのみのソースからの命令を受け取り、作用するインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。
我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。
このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Generative Text Steganography with Large Language Model [10.572149957139736]
LLM-Stegaと呼ばれる大規模言語モデルのユーザインタフェースに基づくブラックボックス生成テキストステガノグラフィー手法。
まず、キーワードセットを構築し、秘密メッセージを埋め込むための新しい暗号化されたステガノグラフマッピングを設計する。
総合的な実験により、LLM-Stegaは現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-16T02:19:28Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Towards Verifiable Text Generation with Symbolic References [27.01624440701639]
LLMの出力の手作業による検証を容易にするための簡単なアプローチとして,シンボリックグラウンドドジェネレーション(SymGen)を提案する。
SymGen は LLM に対して、ある条件データに存在するフィールドへの明示的なシンボル参照で、通常の出力テキストをインターリーブするように促す。
様々なデータ・ツー・テキスト・問合せ実験において, LLM は, 高精度なシンボリック・レファレンスを生かしたテキストを直接出力し, 流用性や事実性を保ちながら, 正確なシンボリック・レファレンスを生かしたテキストを出力できることがわかった。
論文 参考訳(メタデータ) (2023-11-15T18:28:29Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。