論文の概要: PhantomLint: Principled Detection of Hidden LLM Prompts in Structured Documents
- arxiv url: http://arxiv.org/abs/2508.17884v1
- Date: Mon, 25 Aug 2025 10:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.736921
- Title: PhantomLint: Principled Detection of Hidden LLM Prompts in Structured Documents
- Title(参考訳): PhantomLint:構造化文書中の隠蔽LDMプロンプトの原理的検出
- Authors: Toby Murray,
- Abstract要約: 本稿では,構造化文書におけるLLMのインタプリタ検出に対する第一原理的アプローチを提案する。
我々はPhantomLintというプロトタイプツールにアプローチを実装しました。
我々は,PDFおよびHTML文書を含む3,402文書のコーパスに対してPhantomLintを評価し,学術論文のプリプリントやCV,これらなどをカバーする。
- 参考スコア(独自算出の注目度): 4.441866681085517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hidden LLM prompts have appeared in online documents with increasing frequency. Their goal is to trigger indirect prompt injection attacks while remaining undetected from human oversight, to manipulate LLM-powered automated document processing systems, against applications as diverse as r\'esum\'e screeners through to academic peer review processes. Detecting hidden LLM prompts is therefore important for ensuring trust in AI-assisted human decision making. This paper presents the first principled approach to hidden LLM prompt detection in structured documents. We implement our approach in a prototype tool called PhantomLint. We evaluate PhantomLint against a corpus of 3,402 documents, including both PDF and HTML documents, and covering academic paper preprints, CVs, theses and more. We find that our approach is generally applicable against a wide range of methods for hiding LLM prompts from visual inspection, has a very low false positive rate (approx. 0.092%), is practically useful for detecting hidden LLM prompts in real documents, while achieving acceptable performance.
- Abstract(参考訳): 隠されたLSMプロンプトは、頻度が上がるオンライン文書に現れている。
彼らの目標は、人間の監視から検出されずに間接的なインジェクション攻撃を誘発し、学術的な査読プロセスを通じて r\'esum\'e スクリーニングのような多様なアプリケーションに対して LLM による自動文書処理システムを操作することである。
したがって、隠れたLSMプロンプトを検出することは、AIによる人間の意思決定への信頼を確保するために重要である。
本稿では,構造化文書におけるLLMのインタプリタ検出に対する第一原理的アプローチを提案する。
我々はPhantomLintというプロトタイプツールにアプローチを実装しました。
我々は,PDFおよびHTML文書を含む3,402文書のコーパスに対してPhantomLintを評価し,学術論文のプリプリントやCV,これらなどをカバーする。
提案手法は視覚検査からLLMプロンプトを隠蔽する幅広い手法に対して適用可能であり, 偽陽性率(約0.092%)が非常に低く, 実際の文書に隠蔽されたLCMプロンプトを検出するのに有効であり, 性能は良好である。
関連論文リスト
- TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents [4.753535328327316]
大規模言語モデル(LLM)への過度な依存は、重要な社会的問題として浮上している。
そこで本研究では,LLMがユーザにとって妥当と思われるが,実際には誤りである出力を生成するために,不知覚なファントムトークンを文書に注入する手法を提案する。
本手法を応用して,高信頼性LLMユーザを欺くためのフレームワークであるTRAPDOCを導入する。
論文 参考訳(メタデータ) (2025-05-30T07:16:53Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。