Fugu-MT 論文翻訳(概要): Large Language Models as Carriers of Hidden Messages

論文の概要: Large Language Models as Carriers of Hidden Messages

arxiv url: http://arxiv.org/abs/2406.02481v4
Date: Tue, 24 Sep 2024 12:00:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 01:56:09.684945
Title: Large Language Models as Carriers of Hidden Messages
Title（参考訳）: 隠れメッセージのキャリアとしての大規模言語モデル
Authors: Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki,
Abstract要約: 単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Simple fine-tuning can embed hidden text into large language models (LLMs), which is revealed only when triggered by a specific query. Applications include LLM fingerprinting, where a unique identifier is embedded to verify licensing compliance, and steganography, where the LLM carries hidden messages disclosed through a trigger query. Our work demonstrates that embedding hidden text via fine-tuning, although seemingly secure due to the vast number of potential triggers, is vulnerable to extraction through analysis of the LLM's output decoding process. We introduce an extraction attack called Unconditional Token Forcing (UTF), which iteratively feeds tokens from the LLM's vocabulary to reveal sequences with high token probabilities, indicating hidden text candidates. We also present Unconditional Token Forcing Confusion (UTFC), a defense paradigm that makes hidden text resistant to all known extraction attacks without degrading the general performance of LLMs compared to standard fine-tuning. UTFC has both benign (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels).
Abstract（参考訳）: 単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。アプリケーションには、ライセンスコンプライアンスを検証するためにユニークな識別子が埋め込まれたLLMフィンガープリントや、トリガークエリを通じてLLMが隠されたメッセージを運ぶステガノグラフィなどがある。我々の研究は、隠れテキストを微調整で埋め込むことは、非常に多くの潜在的なトリガーによって安全であるように見えるが、LCMの出力復号プロセスの分析を通じて、抽出に弱いことを実証している。我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。また,LLMの汎用性能を標準微調整と比較して劣化させることなく,すべての既知の抽出攻撃に対して隠れテキストに耐性を持たせる防衛パラダイムである Unconditional Token Forcing Confusion (UTFC) を提案する。 UTFCには良性(LLMフィンガープリントの改善)と良性(LLMを使用して秘密通信チャネルを作成する)の両方がある。

関連論文リスト

Say Anything but This: When Tokenizer Betrays Reasoning in LLMs [0.7162422068114824]
大規模言語モデル (LLMs) は、離散トークンIDシーケンスを推論する。現代のサブワードトークンーは、非特異なエンコーディングを日常的に生成する。トークン化は,一対多のトークンIDマッピングを通じてLCM推論を裏切ることができることを示す。
論文参考訳（メタデータ） (2026-01-21T05:09:09Z)
Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm [26.399199616508596]
悪意のあるユーザは、スペルミスなどの簡単に検出可能な機能のないフィッシングメールを合成することができる。このようなモデルはトピック固有のフィッシングメッセージを生成し、ターゲットドメインにコンテンツを調整することができる。既存の意味レベル検出アプローチのほとんどは、それらを確実に識別するのに苦労している。本稿では,様々な挿入戦略を用いてトリガータグ関連をバニラLSMに埋め込むパラジンを提案する。計測されたLLMがフィッシングに関連するコンテンツを生成すると、検出可能なタグが自動的に含まれ、識別が容易になる。
論文参考訳（メタデータ） (2025-09-08T23:44:00Z)
DP-Fusion: Token-Level Differentially Private Inference for Large Language Models [51.71591819896191]
大規模言語モデル(LLM)は、推論時にプライバシを保存しない。 DP-Fusion は LLM の出力にコンテキスト内のトークンの集合が持つ影響を証明的に束縛する。提案手法は, 理論的および実証的プライバシを大幅に改善した, 証明可能な民営化文書を作成する。
論文参考訳（メタデータ） (2025-07-06T20:49:39Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
Anti-adversarial Learning: Desensitizing Prompts for Large Language Models [13.674984661911607]
本稿では,LLMプロンプトを脱感作する方法であるPromptObfusを提案する。 PromptObfusの基本的な考え方は"反逆的"な学習であり、プライバシーの言葉を不明瞭な機密情報へと誘惑する。 PromptObfus はタスク性能を保ちながらリモート LLM からのプライバシ推論を効果的に防止できることを示す。
論文参考訳（メタデータ） (2025-04-25T06:19:02Z)
Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
FDLLM: A Text Fingerprint Detection Method for LLMs in Multi-Language, Multi-Domain Black-Box Environments [18.755880639770755]
大きな言語モデル(LLM)を使用することで、潜在的なセキュリティリスクが生じる可能性がある。攻撃者は、このブラックボックスシナリオを利用して悪意のあるモデルをデプロイし、ユーザに提供されるコードにウイルスを埋め込むことができる。本稿では,Qwen2.5-7Bに基づく最初のLLMGT指紋検出モデルである textbfFDLLM を提案する。
論文参考訳（メタデータ） (2025-01-27T13:18:40Z)
Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。本稿では,Token Highlighterという手法を提案する。
論文参考訳（メタデータ） (2024-12-24T05:10:02Z)
LLMmap: Fingerprinting For Large Language Models [15.726286532500971]
LLMmapは、わずか8つのインタラクションで、95%以上の精度で42の異なるLLMバージョンを正確に識別することができる。潜在的な軽減策について議論し、資源に満ちた敵に対して、効果的な対策が困難か、あるいは実現不可能であることを実証する。
論文参考訳（メタデータ） (2024-07-22T17:59:45Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。 GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文参考訳（メタデータ） (2024-05-27T11:39:59Z)
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。 DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文参考訳（メタデータ） (2024-02-25T17:43:29Z)
Towards Verifiable Text Generation with Symbolic References [27.01624440701639]
LLMの出力の手作業による検証を容易にするための簡単なアプローチとして,シンボリックグラウンドドジェネレーション(SymGen)を提案する。 SymGen は LLM に対して、ある条件データに存在するフィールドへの明示的なシンボル参照で、通常の出力テキストをインターリーブするように促す。様々なデータ・ツー・テキスト・問合せ実験において, LLM は, 高精度なシンボリック・レファレンスを生かしたテキストを直接出力し, 流用性や事実性を保ちながら, 正確なシンボリック・レファレンスを生かしたテキストを出力できることがわかった。
論文参考訳（メタデータ） (2023-11-15T18:28:29Z)
A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。 LLMは不適切にも違法にも使用できるという懸念がある。本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文参考訳（メタデータ） (2023-11-15T06:19:02Z)
SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文参考訳（メタデータ） (2023-10-13T07:18:53Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。