論文の概要: Reasoning over Public and Private Data in Retrieval-Based Systems
- arxiv url: http://arxiv.org/abs/2203.11027v1
- Date: Mon, 14 Mar 2022 13:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 05:09:37.565592
- Title: Reasoning over Public and Private Data in Retrieval-Based Systems
- Title(参考訳): 検索システムにおけるパブリックデータとプライベートデータに関する推論
- Authors: Simran Arora and Patrick Lewis and Angela Fan and Jacob Kahn and
Christopher R\'e
- Abstract要約: State-of-the-artシステムは、回答を生成する前に、背景コーパスからユーザ質問に関連する情報を明示的に検索する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
PAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL) のプライバシ・フレームワークを,複数のプライバシ・スコープにまたがる新規検索設定のために最初に定義する。
- 参考スコア(独自算出の注目度): 29.515915401413334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users and organizations are generating ever-increasing amounts of private
data from a wide range of sources. Incorporating private data is important to
personalize open-domain applications such as question-answering, fact-checking,
and personal assistants. State-of-the-art systems for these tasks explicitly
retrieve relevant information to a user question from a background corpus
before producing an answer. While today's retrieval systems assume the corpus
is fully accessible, users are often unable or unwilling to expose their
private data to entities hosting public data. We first define the
PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL (PAIR) privacy framework
for the novel retrieval setting over multiple privacy scopes. We then argue
that an adequate benchmark is missing to study PAIR since existing textual
benchmarks require retrieving from a single data distribution. However, public
and private data intuitively reflect different distributions, motivating us to
create ConcurrentQA, the first textual QA benchmark to require concurrent
retrieval over multiple data-distributions. Finally, we show that existing
systems face large privacy vs. performance tradeoffs when applied to our
proposed retrieval setting and investigate how to mitigate these tradeoffs.
- Abstract(参考訳): ユーザや組織は、さまざまなソースから継続的に増加するプライベートデータを生成しています。
プライベートデータの取り込みは、質問応答、ファクトチェック、パーソナルアシスタントなどのオープンドメインアプリケーションをパーソナライズするために重要である。
これらのタスクの最先端システムは、回答を生成する前に背景コーパスからユーザ質問に関連する情報を明示的に取得する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
我々はまず,複数のプライバシー範囲にまたがる新規検索設定のためのPAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL)プライバシ・フレームワークを定義する。
既存のテキストベンチマークでは単一のデータ分散から検索する必要があるため、ペアを学習するには適切なベンチマークが欠落していると論じる。
しかし、公開データとプライベートデータは直感的に異なる分布を反映し、複数のデータ配信を並列に検索する最初のテキストQAベンチマークであるConcurrentQAを作成する動機となった。
最後に、提案した検索設定に適用した場合、既存のシステムは大きなプライバシ対パフォーマンストレードオフに直面し、これらのトレードオフを緩和する方法を検討する。
関連論文リスト
- Towards Split Learning-based Privacy-Preserving Record Linkage [49.1574468325115]
ユーザデータのプライバシが要求されるアプリケーションを容易にするために、Split Learningが導入されている。
本稿では,プライバシ保護記録マッチングのための分割学習の可能性について検討する。
論文 参考訳(メタデータ) (2024-09-02T09:17:05Z) - Differentially Private Data Release on Graphs: Inefficiencies and Unfairness [48.96399034594329]
本稿では,ネットワーク情報公開の文脈における偏見と不公平性に対する差別的プライバシの影響を特徴づける。
ネットワーク構造が全員に知られているネットワークリリースの問題を考えるが、エッジの重みをプライベートにリリースする必要がある。
我々の研究は、これらのネットワーク化された決定問題におけるプライバシーに起因する偏見と不公平性に関する理論的根拠と実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-08-08T08:37:37Z) - Private Approximate Query over Horizontal Data Federation [0.0]
既存のアプローチは、プライバシを改善する暗号に頼っているが、クエリ応答時間を犠牲にしている。
本稿では,データ分散を意識したオンラインサンプリング手法を考案し,レンジクエリの実行を高速化する手法を提案する。
我々のソリューションは、基本的な非セキュアなソリューションよりも最大8倍高速な処理を提供できる。
論文 参考訳(メタデータ) (2024-06-17T11:19:58Z) - Privacy-Enhanced Database Synthesis for Benchmark Publishing [16.807486872855534]
差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、主に集約クエリや分類タスクにおけるエラーの最小化に焦点が当てられている。
本稿では,特にベンチマークのためのプライバシ保護データベースの作成について述べる。
PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
論文 参考訳(メタデータ) (2024-05-02T14:20:24Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Efficient User-Centric Privacy-Friendly and Flexible Wearable Data Aggregation and Sharing [9.532148238768213]
ウェアラブルデバイスは個人や一般大衆にサービスを提供することができる。
クラウドプロバイダが収集するウェアラブルデータは、プライバシのリスクを引き起こす可能性がある。
我々は,SAMAという新しい,効率的で,ユーザ中心で,プライバシーに配慮した,フレキシブルなデータアグリゲーションと共有方式を提案する。
論文 参考訳(メタデータ) (2022-03-01T13:51:52Z) - Post-processing of Differentially Private Data: A Fairness Perspective [53.29035917495491]
本稿では,ポストプロセッシングが個人やグループに異なる影響を与えることを示す。
差分的にプライベートなデータセットのリリースと、ダウンストリームの決定にそのようなプライベートなデータセットを使用するという、2つの重要な設定を分析している。
それは、異なる公正度尺度の下で(ほぼ)最適である新しい後処理機構を提案する。
論文 参考訳(メタデータ) (2022-01-24T02:45:03Z) - Decision Making with Differential Privacy under a Fairness Lens [65.16089054531395]
アメリカ国勢調査局は、多くの重要な意思決定プロセスの入力として使用される個人のグループに関するデータセットと統計を公表している。
プライバシと機密性要件に従うために、これらの機関は、しばしば、プライバシを保存するバージョンのデータを公開する必要がある。
本稿では,差分的プライベートデータセットのリリースについて検討し,公平性の観点から重要な資源配分タスクに与える影響を考察する。
論文 参考訳(メタデータ) (2021-05-16T21:04:19Z) - Prioritized Multi-Criteria Federated Learning [16.35440946424973]
マシンラーニングのシナリオでは、モデルがサービスのユーザから来るプライベートデータでトレーニングされる必要がある場合、プライバシが重要な問題になります。
我々は,多数のクライアントに分散したプライベートデータセットに基づくMLモデルを構築する手段として,フェデレートラーニング(FL)を提案する。
中央コーディネートサーバは、クライアントによってローカルに計算された更新を受け取り、それらを集約してより良いグローバルモデルを得る。
論文 参考訳(メタデータ) (2020-07-17T10:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。