Fugu-MT 論文翻訳(概要): Reasoning over Public and Private Data in Retrieval-Based Systems

論文の概要: Reasoning over Public and Private Data in Retrieval-Based Systems

arxiv url: http://arxiv.org/abs/2203.11027v1
Date: Mon, 14 Mar 2022 13:08:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-27 05:09:37.565592
Title: Reasoning over Public and Private Data in Retrieval-Based Systems
Title（参考訳）: 検索システムにおけるパブリックデータとプライベートデータに関する推論
Authors: Simran Arora and Patrick Lewis and Angela Fan and Jacob Kahn and Christopher R\'e
Abstract要約: State-of-the-artシステムは、回答を生成する前に、背景コーパスからユーザ質問に関連する情報を明示的に検索する。今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。 PAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL) のプライバシ・フレームワークを,複数のプライバシ・スコープにまたがる新規検索設定のために最初に定義する。
参考スコア（独自算出の注目度）: 29.515915401413334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Users and organizations are generating ever-increasing amounts of private data from a wide range of sources. Incorporating private data is important to personalize open-domain applications such as question-answering, fact-checking, and personal assistants. State-of-the-art systems for these tasks explicitly retrieve relevant information to a user question from a background corpus before producing an answer. While today's retrieval systems assume the corpus is fully accessible, users are often unable or unwilling to expose their private data to entities hosting public data. We first define the PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL (PAIR) privacy framework for the novel retrieval setting over multiple privacy scopes. We then argue that an adequate benchmark is missing to study PAIR since existing textual benchmarks require retrieving from a single data distribution. However, public and private data intuitively reflect different distributions, motivating us to create ConcurrentQA, the first textual QA benchmark to require concurrent retrieval over multiple data-distributions. Finally, we show that existing systems face large privacy vs. performance tradeoffs when applied to our proposed retrieval setting and investigate how to mitigate these tradeoffs.
Abstract（参考訳）: ユーザや組織は、さまざまなソースから継続的に増加するプライベートデータを生成しています。プライベートデータの取り込みは、質問応答、ファクトチェック、パーソナルアシスタントなどのオープンドメインアプリケーションをパーソナライズするために重要である。これらのタスクの最先端システムは、回答を生成する前に背景コーパスからユーザ質問に関連する情報を明示的に取得する。今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。我々はまず,複数のプライバシー範囲にまたがる新規検索設定のためのPAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL)プライバシ・フレームワークを定義する。既存のテキストベンチマークでは単一のデータ分散から検索する必要があるため、ペアを学習するには適切なベンチマークが欠落していると論じる。しかし、公開データとプライベートデータは直感的に異なる分布を反映し、複数のデータ配信を並列に検索する最初のテキストQAベンチマークであるConcurrentQAを作成する動機となった。最後に、提案した検索設定に適用した場合、既存のシステムは大きなプライバシ対パフォーマンストレードオフに直面し、これらのトレードオフを緩和する方法を検討する。

関連論文リスト

Differentially Private Synthetic Data Release for Topics API Outputs [63.79476766779742]
当社では,Google ChromeのPrivacy Sandboxの一部として,1つのPrivacy-Preserving Ads API – Topics APIに注目しています。実トピックAPIデータの再識別リスク特性と密に一致した、微分プライベートなデータセットを生成する。これにより、外部の研究者がAPIを詳細に分析し、現実的な大規模データセットの事前および将来の作業の再現が可能になります。
論文参考訳（メタデータ） (2025-06-30T13:46:57Z)
MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文参考訳（メタデータ） (2025-06-25T18:04:25Z)
Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。 FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文参考訳（メタデータ） (2025-04-27T04:26:02Z)
Towards Split Learning-based Privacy-Preserving Record Linkage [49.1574468325115]
ユーザデータのプライバシが要求されるアプリケーションを容易にするために、Split Learningが導入されている。本稿では,プライバシ保護記録マッチングのための分割学習の可能性について検討する。
論文参考訳（メタデータ） (2024-09-02T09:17:05Z)
Differentially Private Data Release on Graphs: Inefficiencies and Unfairness [48.96399034594329]
本稿では,ネットワーク情報公開の文脈における偏見と不公平性に対する差別的プライバシの影響を特徴づける。ネットワーク構造が全員に知られているネットワークリリースの問題を考えるが、エッジの重みをプライベートにリリースする必要がある。我々の研究は、これらのネットワーク化された決定問題におけるプライバシーに起因する偏見と不公平性に関する理論的根拠と実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-08-08T08:37:37Z)
Private Approximate Query over Horizontal Data Federation [0.0]
既存のアプローチは、プライバシを改善する暗号に頼っているが、クエリ応答時間を犠牲にしている。本稿では,データ分散を意識したオンラインサンプリング手法を考案し,レンジクエリの実行を高速化する手法を提案する。我々のソリューションは、基本的な非セキュアなソリューションよりも最大8倍高速な処理を提供できる。
論文参考訳（メタデータ） (2024-06-17T11:19:58Z)
Privacy-Enhanced Database Synthesis for Benchmark Publishing [16.807486872855534]
差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、主に集約クエリや分類タスクにおけるエラーの最小化に焦点が当てられている。本稿では,特にベンチマークのためのプライバシ保護データベースの作成について述べる。 PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
論文参考訳（メタデータ） (2024-05-02T14:20:24Z)
Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。 PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2023-10-19T06:55:13Z)
A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文参考訳（メタデータ） (2023-09-27T14:38:16Z)
Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。 Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文参考訳（メタデータ） (2022-12-13T10:41:12Z)
Efficient User-Centric Privacy-Friendly and Flexible Wearable Data Aggregation and Sharing [9.532148238768213]
ウェアラブルデバイスは個人や一般大衆にサービスを提供することができる。クラウドプロバイダが収集するウェアラブルデータは、プライバシのリスクを引き起こす可能性がある。我々は,SAMAという新しい,効率的で,ユーザ中心で,プライバシーに配慮した,フレキシブルなデータアグリゲーションと共有方式を提案する。
論文参考訳（メタデータ） (2022-03-01T13:51:52Z)
Post-processing of Differentially Private Data: A Fairness Perspective [53.29035917495491]
本稿では,ポストプロセッシングが個人やグループに異なる影響を与えることを示す。差分的にプライベートなデータセットのリリースと、ダウンストリームの決定にそのようなプライベートなデータセットを使用するという、2つの重要な設定を分析している。それは、異なる公正度尺度の下で(ほぼ)最適である新しい後処理機構を提案する。
論文参考訳（メタデータ） (2022-01-24T02:45:03Z)
Decision Making with Differential Privacy under a Fairness Lens [65.16089054531395]
アメリカ国勢調査局は、多くの重要な意思決定プロセスの入力として使用される個人のグループに関するデータセットと統計を公表している。プライバシと機密性要件に従うために、これらの機関は、しばしば、プライバシを保存するバージョンのデータを公開する必要がある。本稿では,差分的プライベートデータセットのリリースについて検討し,公平性の観点から重要な資源配分タスクに与える影響を考察する。
論文参考訳（メタデータ） (2021-05-16T21:04:19Z)
Prioritized Multi-Criteria Federated Learning [16.35440946424973]
マシンラーニングのシナリオでは、モデルがサービスのユーザから来るプライベートデータでトレーニングされる必要がある場合、プライバシが重要な問題になります。我々は,多数のクライアントに分散したプライベートデータセットに基づくMLモデルを構築する手段として,フェデレートラーニング(FL)を提案する。中央コーディネートサーバは、クライアントによってローカルに計算された更新を受け取り、それらを集約してより良いグローバルモデルを得る。
論文参考訳（メタデータ） (2020-07-17T10:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。