論文の概要: Reasoning over Public and Private Data in Retrieval-Based Systems
- arxiv url: http://arxiv.org/abs/2203.11027v1
- Date: Mon, 14 Mar 2022 13:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 05:09:37.565592
- Title: Reasoning over Public and Private Data in Retrieval-Based Systems
- Title(参考訳): 検索システムにおけるパブリックデータとプライベートデータに関する推論
- Authors: Simran Arora and Patrick Lewis and Angela Fan and Jacob Kahn and
Christopher R\'e
- Abstract要約: State-of-the-artシステムは、回答を生成する前に、背景コーパスからユーザ質問に関連する情報を明示的に検索する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
PAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL) のプライバシ・フレームワークを,複数のプライバシ・スコープにまたがる新規検索設定のために最初に定義する。
- 参考スコア(独自算出の注目度): 29.515915401413334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users and organizations are generating ever-increasing amounts of private
data from a wide range of sources. Incorporating private data is important to
personalize open-domain applications such as question-answering, fact-checking,
and personal assistants. State-of-the-art systems for these tasks explicitly
retrieve relevant information to a user question from a background corpus
before producing an answer. While today's retrieval systems assume the corpus
is fully accessible, users are often unable or unwilling to expose their
private data to entities hosting public data. We first define the
PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL (PAIR) privacy framework
for the novel retrieval setting over multiple privacy scopes. We then argue
that an adequate benchmark is missing to study PAIR since existing textual
benchmarks require retrieving from a single data distribution. However, public
and private data intuitively reflect different distributions, motivating us to
create ConcurrentQA, the first textual QA benchmark to require concurrent
retrieval over multiple data-distributions. Finally, we show that existing
systems face large privacy vs. performance tradeoffs when applied to our
proposed retrieval setting and investigate how to mitigate these tradeoffs.
- Abstract(参考訳): ユーザや組織は、さまざまなソースから継続的に増加するプライベートデータを生成しています。
プライベートデータの取り込みは、質問応答、ファクトチェック、パーソナルアシスタントなどのオープンドメインアプリケーションをパーソナライズするために重要である。
これらのタスクの最先端システムは、回答を生成する前に背景コーパスからユーザ質問に関連する情報を明示的に取得する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
我々はまず,複数のプライバシー範囲にまたがる新規検索設定のためのPAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL)プライバシ・フレームワークを定義する。
既存のテキストベンチマークでは単一のデータ分散から検索する必要があるため、ペアを学習するには適切なベンチマークが欠落していると論じる。
しかし、公開データとプライベートデータは直感的に異なる分布を反映し、複数のデータ配信を並列に検索する最初のテキストQAベンチマークであるConcurrentQAを作成する動機となった。
最後に、提案した検索設定に適用した場合、既存のシステムは大きなプライバシ対パフォーマンストレードオフに直面し、これらのトレードオフを緩和する方法を検討する。
関連論文リスト
- Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - From Private to Public: Benchmarking GANs in the Context of Private Time
Series Classification [5.557646286040063]
GANをベースとした2つの顕著なアーキテクチャが、プライベート時系列分類の文脈で評価された。
実験によると、特にGSWGANは、さまざまな公開データセットでよく機能している。
生成されたデータセットの分析により、時系列生成の文脈におけるGSWGANの優位性をさらに検証する。
論文 参考訳(メタデータ) (2023-03-28T12:10:45Z) - Considerations for Differentially Private Learning with Large-Scale
Public Pretraining [58.75893136929649]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Sotto Voce: Federated Speech Recognition with Differential Privacy
Guarantees [0.761963751158349]
音声データは収集するのに高価で、情報源に非常に敏感です。
組織が独立して自身の使用のために小さなデータセットを収集している場合が多いが、マシンラーニングの要求に対してパフォーマンスが低い場合も少なくない。
しかし、明快なデータ共有は、知的財産の喪失とデータセットに存在する個人のプライバシーの喪失という点で、非常に危険なリスクを伴っている。
論文 参考訳(メタデータ) (2022-07-16T02:48:54Z) - Post-processing of Differentially Private Data: A Fairness Perspective [53.29035917495491]
本稿では,ポストプロセッシングが個人やグループに異なる影響を与えることを示す。
差分的にプライベートなデータセットのリリースと、ダウンストリームの決定にそのようなプライベートなデータセットを使用するという、2つの重要な設定を分析している。
それは、異なる公正度尺度の下で(ほぼ)最適である新しい後処理機構を提案する。
論文 参考訳(メタデータ) (2022-01-24T02:45:03Z) - Prioritized Multi-Criteria Federated Learning [16.35440946424973]
マシンラーニングのシナリオでは、モデルがサービスのユーザから来るプライベートデータでトレーニングされる必要がある場合、プライバシが重要な問題になります。
我々は,多数のクライアントに分散したプライベートデータセットに基づくMLモデルを構築する手段として,フェデレートラーニング(FL)を提案する。
中央コーディネートサーバは、クライアントによってローカルに計算された更新を受け取り、それらを集約してより良いグローバルモデルを得る。
論文 参考訳(メタデータ) (2020-07-17T10:49:47Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z) - Privacy-Aware Time-Series Data Sharing with Deep Reinforcement Learning [33.42328078385098]
時系列データ共有におけるプライバシーユーティリティトレードオフ(PUT)について検討する。
現時点でのプライバシを保存する方法は、トレースレベルでかなりの量の情報をリークする可能性がある。
我々は、ユーザの真のデータシーケンスの歪んだバージョンを、信頼できない第三者と共有することを検討する。
論文 参考訳(メタデータ) (2020-03-04T18:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。