論文の概要: Transform Before You Query: A Privacy-Preserving Approach for Vector Retrieval with Embedding Space Alignment
- arxiv url: http://arxiv.org/abs/2507.18518v2
- Date: Thu, 31 Jul 2025 06:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.665669
- Title: Transform Before You Query: A Privacy-Preserving Approach for Vector Retrieval with Embedding Space Alignment
- Title(参考訳): クエリの前に変換: 空間アライメントを埋め込んだベクトル検索のためのプライバシー保護アプローチ
- Authors: Ruiqi He, Zekun Fei, Jiaqi Li, Xinyuan Zhu, Biao Yi, Siyi Lv, Weijie Liu, Zheli Liu,
- Abstract要約: STEER(textbfSecure textbfTransformed textbfEmbedding vtextbfEctortextbf Retrieval)は、プライベートベクトル検索フレームワークである。
検索精度を維持しながら、クエリテキストのプライバシを保護します。
- 参考スコア(独自算出の注目度): 7.491164990682839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector Database (VDB) can efficiently index and search high-dimensional vector embeddings from unstructured data, crucially enabling fast semantic similarity search essential for modern AI applications like generative AI and recommendation systems. Since current VDB service providers predominantly use proprietary black-box models, users are forced to expose raw query text to them via API in exchange for the vector retrieval services. Consequently, if query text involves confidential records from finance or healthcare domains, this mechanism inevitably leads to critical leakage of user's sensitive information. To address this issue, we introduce STEER (\textbf{S}ecure \textbf{T}ransformed \textbf{E}mbedding v\textbf{E}ctor\textbf{ R}etrieval), a private vector retrieval framework that leverages the alignment relationship between the semantic spaces of different embedding models to derive approximate embeddings for the query text. STEER performs the retrieval using the approximate embeddings within the original VDB and requires no modifications to the server side. Our theoretical and experimental analyses demonstrate that STEER effectively safeguards query text privacy while maintaining the retrieval accuracy. Even though approximate embeddings are approximations of the embeddings from proprietary models, they still prevent the providers from recovering the query text through Embedding Inversion Attacks (EIAs). Extensive experimental results show that Recall@100 of STEER can basically achieve a decrease of less than 5\%. Furthermore, even when searching within a text corpus of millions of entries, STEER achieves a Recall@20 accuracy 20\% higher than current baselines.
- Abstract(参考訳): ベクトルデータベース(VDB)は、非構造化データから高次元ベクトル埋め込みを効率よくインデックスし、検索し、生成AIやレコメンデーションシステムのような現代のAIアプリケーションに不可欠な、高速なセマンティック類似性検索を可能にする。
現在のVDBサービスプロバイダは、主にプロプライエタリなブラックボックスモデルを使用しているため、ユーザは、ベクトル検索サービスと引き換えに、API経由で生のクエリテキストを公開せざるを得ない。
したがって、クエリテキストがファイナンスや医療ドメインからの機密記録を含む場合、このメカニズムは必然的にユーザの機密情報の重大な漏洩につながる。
この問題に対処するため,STEER (\textbf{S}ecure \textbf{T}ransformed \textbf{E}mbedding v\textbf{E}ctor\textbf{R}etrieval) を導入する。
STEERは、元のVDB内に近似埋め込みを使用して検索を行い、サーバ側を変更する必要はない。
理論的および実験的分析により、STEERは検索精度を維持しながら、クエリテキストのプライバシを効果的に保護することを示した。
近似的な埋め込みはプロプライエタリなモデルからの埋め込みの近似であるにもかかわらず、プロバイダがEmbedding Inversion Attacks (EIA)を通じてクエリテキストの復元を妨げている。
STEERのRecall@100は、基本的に5\%未満の低下を達成できる。
さらに、数百万のエントリのテキストコーパス内で検索しても、STEERは現在のベースラインよりも20倍高いRecall@20精度を達成する。
関連論文リスト
- Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [17.506934704019226]
標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。
この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。
本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T11:08:23Z) - Cognitive-Aligned Document Selection for Retrieval-augmented Generation [2.9060210098040855]
本稿では,クエリを動的に更新し,高品質で信頼性の高い検索文書をフィルタリングするGGatrievalを提案する。
ユーザクエリを構文コンポーネントにパースし、検索したドキュメントときめ細かいグラウンドアライメントを実行する。
提案手法では,検索した文書をフィルタリングするための新しい基準を導入し,ターゲット情報を取得するための人的戦略を密にエミュレートする。
論文 参考訳(メタデータ) (2025-02-17T13:00:15Z) - QuOTE: Question-Oriented Text Embeddings [8.377715521597292]
QuOTE(Question-Oriented Text Embeddings)は、検索強化世代(RAG)システムへの新たな拡張である。
従来のRAGパイプラインとは異なり、QuOTEは、チャンクが潜在的に答えうる仮説的な質問でチャンクを拡張する。
マルチホップ質問応答タスクを含め,QuOTEは検索精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-16T03:37:13Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。