論文の概要: LLM-Redactor: An Empirical Evaluation of Eight Techniques for Privacy-Preserving LLM Requests
- arxiv url: http://arxiv.org/abs/2604.12064v1
- Date: Mon, 13 Apr 2026 21:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.125157
- Title: LLM-Redactor: An Empirical Evaluation of Eight Techniques for Privacy-Preserving LLM Requests
- Title(参考訳): LLM-Redactor:プライバシ保護のための8つのテクニックの実証評価
- Authors: Justice Owusu Agyemang, Jerry John Kponyo, Elliot Amponsah, Godfred Manu Addo Boakye, Kwame Opuni-Boachie Obour Agyekum,
- Abstract要約: コーディングエージェントとLLMベースのアプリケーションは、通常、潜在的に敏感なコンテンツをクラウドのLLM APIに送信し、ログ化、保持、トレーニングに使用されるか、召喚される可能性がある。
プライバシ保護型LCM要求に対する8つの手法の系統的実証評価を行った。
MCPやOpenAI互換のAPIと互換性のあるオープンソースシムで、全8つ(あるいはデプロイメントがまだ実現不可能な、牽引可能な研究段階のサブセット)を実装しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents and LLM-powered applications routinely send potentially sensitive content to cloud LLM APIs where it may be logged, retained, used for training, or subpoenaed. Existing privacy tooling focuses on network-level encryption and organization-level DLP, neither of which addresses the content of prompts themselves. We present a systematic empirical evaluation of eight techniques for privacy-preserving LLM requests: (A) local-only inference, (B) redaction with placeholder restoration, (C) semantic rephrasing, (D) Trusted Execution Environment hosted inference, (E) split inference, (F) fully homomorphic encryption, (G) secret sharing via multi-party computation, and (H) differential-privacy noise. We implement all eight (or a tractable research-stage subset where deployment is not yet feasible) in an open-source shim compatible with MCP and any OpenAI-compatible API. We evaluate the four practical options (A, B, C, H) and their combinations across four workload classes using a ground-truth-labelled leak benchmark of 1,300 samples with 4,014 annotations. Our headline finding is that no single technique dominates: the combination A+B+C (route locally when possible, redact and rephrase the rest) achieves 0.6% combined leak on PII and 31.3% on proprietary code, with zero exact leaks on PII across 500 samples. We present a decision rule that selects the appropriate option(s) from a threat-model budget and workload characterisation. Code, benchmarks, and evaluation harness are released at https://github.com/jayluxferro/llm-redactor.
- Abstract(参考訳): コーディングエージェントとLLMベースのアプリケーションは、通常、潜在的に敏感なコンテンツをクラウドのLLM APIに送信し、ログ化、保持、トレーニングに使用されるか、召喚される可能性がある。
既存のプライバシツールでは、ネットワークレベルの暗号化と組織レベルのDLPに重点を置いている。
A) ローカルのみの推論, (B) プレースホルダーの復元, (C) セマンティック・リフレージング, (D) 信頼された実行環境, (E) 分割推論, (F) 完全同型暗号化, (G) 秘密共有によるマルチパーティ計算, (H) 差分プライバシノイズ。
私たちは、MPPやOpenAI互換APIと互換性のあるオープンソースシムで、全8つ(あるいはデプロイメントがまだ実現不可能な、牽引可能な研究段階のサブセット)を実装しています。
我々は4つの作業負荷クラス(A,B,C,H)とそれらの組み合わせについて,1,300のサンプルと4,014のアノテーションによるリークベンチマークを用いて評価した。
私たちの見出しは、A+B+C(可能であればローカルで再起動)の組み合わせは、PIIで0.6%、プロプライエタリコードで31.3%、500サンプルでPIIで0パーセントの精度でリークする。
本稿では,脅威モデル予算とワークロードの特徴付けから適切な選択肢を選択する決定ルールを提案する。
コード、ベンチマーク、評価ハーネスはhttps://github.com/jayluxferro/llm-redactor.comで公開されている。
関連論文リスト
- SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - A Reliability Evaluation of Hybrid Deterministic-LLM Based Approaches for Academic Course Registration PDF Information Extraction [0.0]
本研究では,KRS文書からの情報抽出手法の信頼性を3つの戦略を用いて評価した。
実験は、LCMベースのテストのための140の文書と、Camelotベースのパイプライン評価のための860の文書で実施された。
論文 参考訳(メタデータ) (2026-03-09T02:09:02Z) - LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis [6.908972852063454]
半教師あり学習の進歩にもかかわらず、文書レイアウトの理解はデータ集約的なままである。
本稿では、視覚的予測を構造的事前に融合させることにより、半教師付き検出を強化するフレームワークを提案する。
提案手法はモデルスケール間で一貫した利得を示す。
論文 参考訳(メタデータ) (2025-11-12T02:25:58Z) - I Know What You Said: Unveiling Hardware Cache Side-Channels in Local Large Language Model Inference [19.466754645346175]
ローカルにデプロイ可能な大規模言語モデル(LLM)は、最近、プライバシに敏感なタスクで人気を集めている。
ローカルLSM推論に新たなサイドチャネル脆弱性が出現し、被害者の入力テキストと出力テキストの両方を公開できる。
我々は,オープンソースのLLM推論システムとプロプライエタリなLLM推論システムの両方を対象として,新しい盗聴攻撃フレームワークを設計する。
論文 参考訳(メタデータ) (2025-05-10T19:06:37Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。