論文の概要: PhantomLint: Principled Detection of Hidden LLM Prompts in Structured Documents
- arxiv url: http://arxiv.org/abs/2508.17884v2
- Date: Thu, 23 Oct 2025 06:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.427372
- Title: PhantomLint: Principled Detection of Hidden LLM Prompts in Structured Documents
- Title(参考訳): PhantomLint:構造化文書中の隠蔽LDMプロンプトの原理的検出
- Authors: Toby Murray,
- Abstract要約: 本稿では,構造化文書におけるLLMのインタプリタ検出に対する第一原理的アプローチを提案する。
我々はPhantomLintというプロトタイプツールにアプローチを実装しました。
我々は,PDFおよびHTML文書を含む3,402文書のコーパスに対してPhantomLintを評価し,学術論文のプリプリントやCV,これらなどをカバーする。
- 参考スコア(独自算出の注目度): 4.441866681085517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hidden LLM prompts have appeared in online documents with increasing frequency. Their goal is to trigger indirect prompt injection attacks while remaining undetected from human oversight, to manipulate LLM-powered automated document processing systems, against applications as diverse as r\'esum\'e screeners through to academic peer review processes. Detecting hidden LLM prompts is therefore important for ensuring trust in AI-assisted human decision making. This paper presents the first principled approach to hidden LLM prompt detection in structured documents. We implement our approach in a prototype tool called PhantomLint. We evaluate PhantomLint against a corpus of 3,402 documents, including both PDF and HTML documents, and covering academic paper preprints, CVs, theses and more. We find that our approach is generally applicable against a wide range of methods for hiding LLM prompts from visual inspection, has a very low false positive rate (approx. 0.092%), is practically useful for detecting hidden LLM prompts in real documents, while achieving acceptable performance.
- Abstract(参考訳): 隠されたLSMプロンプトは、頻度が上がるオンライン文書に現れている。
彼らの目標は、人間の監視から検出されずに間接的なインジェクション攻撃を誘発し、学術的な査読プロセスを通じて r\'esum\'e スクリーニングのような多様なアプリケーションに対して LLM による自動文書処理システムを操作することである。
したがって、隠れたLSMプロンプトを検出することは、AIによる人間の意思決定への信頼を確保するために重要である。
本稿では,構造化文書におけるLLMのインタプリタ検出に対する第一原理的アプローチを提案する。
我々はPhantomLintというプロトタイプツールにアプローチを実装しました。
我々は,PDFおよびHTML文書を含む3,402文書のコーパスに対してPhantomLintを評価し,学術論文のプリプリントやCV,これらなどをカバーする。
提案手法は視覚検査からLLMプロンプトを隠蔽する幅広い手法に対して適用可能であり, 偽陽性率(約0.092%)が非常に低く, 実際の文書に隠蔽されたLCMプロンプトを検出するのに有効であり, 性能は良好である。
関連論文リスト
- DoPE: Decoy Oriented Perturbation Encapsulation Human-Readable, AI-Hostile Documents for Academic Integrity [10.808479217513181]
DoPEは、PDF/HTMLアセスメントにセマンティックデコイを埋め込むドキュメント層防御フレームワークである。
FewSoRT-Qは疑問レベルセマンティックデコイを生成し、FewSoRT-Dはそれらを透かしの文書にカプセル化する。
DoPE は OpenAI と Anthropic のブラックボックスMLLM に対して強い経験的利益をもたらす。
論文 参考訳(メタデータ) (2026-01-18T17:34:29Z) - AISysRev -- LLM-based Tool for Title-abstract Screening [0.7758046038799246]
AiSysRevは、書類をスクリーニングするためのDockerコンテナで動作するWebアプリケーションである。
紙のタイトルと要約を含むCSVファイルを受け取る。
ユーザーはインクルージョンと除外の基準を指定する。
ゼロショットと少数ショットの両方をサポートする。
論文 参考訳(メタデータ) (2025-10-08T06:59:23Z) - Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review [17.869642243653985]
大規模言語モデル(LLM)は、科学的なピアレビュープロセスに統合されつつある。
本研究は,著者が論文のPDFに敵対的テキストを埋め込む,隠れたプロンプトインジェクション攻撃の可能性について検討する。
論文 参考訳(メタデータ) (2025-08-28T14:57:04Z) - TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents [4.753535328327316]
大規模言語モデル(LLM)への過度な依存は、重要な社会的問題として浮上している。
そこで本研究では,LLMがユーザにとって妥当と思われるが,実際には誤りである出力を生成するために,不知覚なファントムトークンを文書に注入する手法を提案する。
本手法を応用して,高信頼性LLMユーザを欺くためのフレームワークであるTRAPDOCを導入する。
論文 参考訳(メタデータ) (2025-05-30T07:16:53Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。