論文の概要: Vectors Are Not Neutral: Sensitive-Information Inference from Exported LLM Representations in Summarization
- arxiv url: http://arxiv.org/abs/2605.26433v1
- Date: Tue, 26 May 2026 01:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.564728
- Title: Vectors Are Not Neutral: Sensitive-Information Inference from Exported LLM Representations in Summarization
- Title(参考訳): ベクトルは中性ではない:要約における輸出LLM表現からの感性情報推論
- Authors: Weixin Liu, Bowen Qu, Juming Xiong, Congning Ni, Bradley A. Malin, Zhijun Yin,
- Abstract要約: ソースドキュメントがアクセス制限されたままであっても、派生ベクターは異なるアクセス制御の下で扱われる。
症例スタディとして, 臨床退院前世代におけるこの問題について検討した。
緩和ケーススタディとして,輸出されたベクターターゲットパラメーター効率の微調整法であるSurfaceLoRAを紹介する。
- 参考スコア(独自算出の注目度): 7.115606514291045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) summarization systems may pass compact vector representations of private inputs to downstream retrieval, monitoring, audit, or analytic workflows. Even when source documents remain access-restricted, derived vectors may be handled under different access controls and still support sensitive-information inference, creating a residual information-disclosure risk. We study this issue in clinical discharge-summary generation as a high-stakes case study, using electronic health record (EHR)-recorded race as a controlled sensitive-label audit. We audit two artifacts that a system might retain or expose to downstream components: the final prompt-token hidden state and the mean-pooled prompt representation. Our results show that reducing recoverability of the case-study sensitive label from one exported artifact does not necessarily reduce recoverability from another. As a mitigation case study, we introduce SurfaceLoRA, an exported-vector-targeted parameter-efficient fine-tuning method that uses a gradient-reversal discriminator attached to a designated exported vector. Under a balanced five-way probing protocol, SurfaceLoRA reduces EHR-recorded race recoverability from the targeted final-token artifact toward chance while preserving summarization utility, yet recoverability remains substantially higher from untargeted pooled artifacts. These findings show that privacy auditing and mitigation should be performed on the exact vector artifact retained or exposed to downstream components.
- Abstract(参考訳): 大規模言語モデル(LLM)の要約システムは、プライベート入力のコンパクトなベクトル表現を下流の検索、監視、監査、分析のワークフローに渡すことができる。
ソース文書がアクセス制限されたままであっても、派生ベクトルは異なるアクセス制御の下で処理され、機密情報推論をサポートし、残余の情報開示リスクが生じる。
本研究では,電子健康記録(EHR)記録レースをコントロール・センシティブ・ラベル・監査として利用し,臨床退院日数生成の課題をハイテイクケーススタディとして検討した。
我々は、システムが下流のコンポーネントに保持または公開する可能性のある2つのアーティファクトを監査する。
以上の結果から, 1つの輸出品からケーススタディ・センシティブなラベルを回収し, 回収しやすさを損なうことはないことが示唆された。
緩和事例として、指定された輸出ベクトルにアタッチメントされた勾配反転判別器を用いた輸出ベクトルターゲットパラメーター効率の微調整法であるSurfaceLoRAを紹介する。
バランスのとれた5方向探索プロトコルの下では、SurfaceLoRAは、目標となる最終段階のアーティファクトから偶然にEHRが記録したレースの回復可能性を減らすと同時に、サマリゼーションユーティリティを保ちながら、未目標のアーティファクトよりもかなり高いリカバリ性を保っている。
これらの結果から, 下流コンポーネントに保持または露出した正確なベクトルアーティファクトに対して, プライバシ監査と緩和を実施すべきであることが示唆された。
関連論文リスト
- VectorSmuggle: Steganographic Exfiltration in Embedding Stores and a Cryptographic Provenance Defense [0.0]
現代の検索拡張生成システム(RAG)は、センシティブなコンテンツを高次元の埋め込みに変換し、それらをベクトルデータベースに格納し、結果の数値的アーティファクトを不透明なものとして扱う。
これはステガノグラフィー・エクスプロイト・アタックのクラスを開放することを示している。
入力パイプラインへの書き込みアクセスを持つアタッカーは、埋め込み内にペイロードデータを隠蔽することができる。
論文 参考訳(メタデータ) (2026-05-13T16:44:20Z) - Needle-in-RAG: Prompt-Conditioned Character-Level Traceback of Poisoned Spans in Retrieved Evidence [4.039934762896615]
RAGCharacterは、2パスの法医学的なフレームワークで、具体的な誤生成イベントのために責任ある回収されたスパンをローカライズする。
RAGおよび現在のRAGCharacterにおけるブラックボックス文字レベルの毒の追跡について検討した。
論文 参考訳(メタデータ) (2026-05-03T08:42:29Z) - Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders [39.5490415037017]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。
既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。
RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
論文 参考訳(メタデータ) (2025-12-09T18:33:22Z) - ORCHID: Orchestrated Retrieval-Augmented Classification with Human-in-the-Loop Intelligent Decision-Making for High-Risk Property [6.643427585499247]
ORCHIDは、HRP分類のためのモジュール型エージェントシステムである。
検索強化世代(RAG)を人間の監視と組み合わせて、監査可能なポリシベースのアウトプットを生成する。
デモでは、単一項目の提出、接地された引用、中小企業のフィードバックキャプチャ、エクスポート可能な監査アーティファクトなどが紹介されている。
論文 参考訳(メタデータ) (2025-11-07T03:48:05Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Stealthy LLM-Driven Data Poisoning Attacks Against Embedding-Based Retrieval-Augmented Recommender Systems [16.79952669254101]
検索強化レコメンデータシステム(RAG)におけるプロバイダ側データ中毒について検討する。
アイテム記述内でわずかなトークンだけを変更することで、攻撃者はターゲットのアイテムを著しくプロモートまたはデモすることができる。
MovieLensの実験では、2つの大きな言語モデル(LLM)検索モジュールを使用して、微妙な攻撃でも最終的なランク付けとアイテムの露出が変化し、単純な検出が発覚した。
論文 参考訳(メタデータ) (2025-05-08T12:53:42Z) - PEEL the Layers and Find Yourself: Revisiting Inference-time Data Leakage for Residual Neural Networks [64.90981115460937]
本稿では、ディープニューラルネットワーク(NN)の推論時データ漏洩リスクについて検討する。
残差NNの中間出力からブロックワイズ入力特徴を効果的に回収できる新しい後方特徴逆変換法である textbfPEEL を提案する。
その結果,平均二乗誤差 (MSE) で評価した場合,PEEL は最先端の回収方法よりも桁違いに優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-08T20:11:05Z) - Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Solving Missing-Annotation Object Detection with Background
Recalibration Loss [49.42997894751021]
本稿では,新しい,かつ困難な検出シナリオに焦点を当てる。 真のオブジェクト/インスタンスの大部分は,データセットにラベル付けされていない。
従来, ソフトサンプリングを用いて, 正の例と重なり合うRoIsの勾配を再重み付けする手法が提案されてきた。
本稿では、予め定義されたIoU閾値と入力画像に基づいて損失信号を自動的に校正できる、バックグラウンド校正損失(BRL)と呼ばれる優れた解を提案する。
論文 参考訳(メタデータ) (2020-02-12T23:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。