論文の概要: TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents
- arxiv url: http://arxiv.org/abs/2506.00089v1
- Date: Fri, 30 May 2025 07:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.28145
- Title: TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents
- Title(参考訳): TRAPDOC:知覚不能なファントムトークンを文書に注入することでLCMのユーザを減少させる
- Authors: Hyundong Jin, Sicheol Sung, Shinwoo Park, SeungYeop Baik, Yo-Sub Han,
- Abstract要約: 大規模言語モデル(LLM)への過度な依存は、重要な社会的問題として浮上している。
そこで本研究では,LLMがユーザにとって妥当と思われるが,実際には誤りである出力を生成するために,不知覚なファントムトークンを文書に注入する手法を提案する。
本手法を応用して,高信頼性LLMユーザを欺くためのフレームワークであるTRAPDOCを導入する。
- 参考スコア(独自算出の注目度): 4.753535328327316
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The reasoning, writing, text-editing, and retrieval capabilities of proprietary large language models (LLMs) have advanced rapidly, providing users with an ever-expanding set of functionalities. However, this growing utility has also led to a serious societal concern: the over-reliance on LLMs. In particular, users increasingly delegate tasks such as homework, assignments, or the processing of sensitive documents to LLMs without meaningful engagement. This form of over-reliance and misuse is emerging as a significant social issue. In order to mitigate these issues, we propose a method injecting imperceptible phantom tokens into documents, which causes LLMs to generate outputs that appear plausible to users but are in fact incorrect. Based on this technique, we introduce TRAPDOC, a framework designed to deceive over-reliant LLM users. Through empirical evaluation, we demonstrate the effectiveness of our framework on proprietary LLMs, comparing its impact against several baselines. TRAPDOC serves as a strong foundation for promoting more responsible and thoughtful engagement with language models. Our code is available at https://github.com/jindong22/TrapDoc.
- Abstract(参考訳): プロプライエタリな大規模言語モデル (LLM) の推論、書き込み、テキスト編集、検索能力は急速に進歩し、ユーザによる機能拡張が続けられている。
しかし、この成長するユーティリティはまた、LLMに対する過度な信頼という、深刻な社会的懸念につながっている。
特に、ユーザは、宿題、課題、機密文書の処理などのタスクを、意味のあるエンゲージメントを伴わずにLLMに委譲する傾向にある。
このような過度な信頼と誤用が、重要な社会問題として浮上している。
これらの問題を緩和するために,LLM はユーザにとって妥当な出力を生成するが,実際には誤りであるような出力を生成するために,不知覚なファントムトークンを文書に注入する手法を提案する。
本手法を応用して,高信頼性LLMユーザを欺くためのフレームワークであるTRAPDOCを導入する。
経験的評価を通じて,本フレームワークのLLMに対する効果を実証し,その影響をいくつかのベースラインと比較した。
TRAPDOCは、言語モデルとのより責任的で思慮深い関わりを促進するための強力な基盤となっている。
私たちのコードはhttps://github.com/jindong22/TrapDocで利用可能です。
関連論文リスト
- LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。
知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。
我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文 参考訳(メタデータ) (2025-04-04T03:03:47Z) - An Empirical Study on Commit Message Generation using LLMs via In-Context Learning [26.39743339039473]
コミットメッセージは、自然言語のコード変更を簡潔に記述する。
我々は,大規模言語モデル (LLM) とテキスト内学習 (ICL) の武器を借りてコミットメッセージを生成することを提案する。
論文 参考訳(メタデータ) (2025-02-26T07:47:52Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications [46.85306320942487]
大きな言語モデル(LLM)は、ツールに積極的に関与し、現実世界のアプリケーションやサービスでアクションを実行するために進化しています。
現在、人間はLLM生成した出力の正確さと適切性を検証し、それらを実世界の実行に投入している。
コードの理解は、悪名高いほど難しいことで知られています。
本稿では,人類が将来,自律LLMと効率的に協力し,委譲し,監督する方法について検討する。
論文 参考訳(メタデータ) (2024-04-10T11:17:33Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。