論文の概要: Non-readily identifiable data collaboration analysis for multiple
datasets including personal information
- arxiv url: http://arxiv.org/abs/2208.14611v1
- Date: Wed, 31 Aug 2022 03:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:52:44.524568
- Title: Non-readily identifiable data collaboration analysis for multiple
datasets including personal information
- Title(参考訳): 個人情報を含む複数データセットの可読識別データ協調解析
- Authors: Akira Imakura, Tetsuya Sakurai, Yukihiko Okada, Tomoya Fujii, Teppei
Sakamoto, Hiroyuki Abe
- Abstract要約: データ機密性と機関間通信は、医療データセットにとって重要である。
本研究では,データ協調分析の識別可能性について検討した。
提案手法は,高い認識性能を維持しつつ,非可読性を示す。
- 参考スコア(独自算出の注目度): 7.315551060433141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-source data fusion, in which multiple data sources are jointly analyzed
to obtain improved information, has considerable research attention. For the
datasets of multiple medical institutions, data confidentiality and
cross-institutional communication are critical. In such cases, data
collaboration (DC) analysis by sharing dimensionality-reduced intermediate
representations without iterative cross-institutional communications may be
appropriate. Identifiability of the shared data is essential when analyzing
data including personal information. In this study, the identifiability of the
DC analysis is investigated. The results reveals that the shared intermediate
representations are readily identifiable to the original data for supervised
learning. This study then proposes a non-readily identifiable DC analysis only
sharing non-readily identifiable data for multiple medical datasets including
personal information. The proposed method solves identifiability concerns based
on a random sample permutation, the concept of interpretable DC analysis, and
usage of functions that cannot be reconstructed. In numerical experiments on
medical datasets, the proposed method exhibits a non-readily identifiability
while maintaining a high recognition performance of the conventional DC
analysis. For a hospital dataset, the proposed method exhibits a nine
percentage point improvement regarding the recognition performance over the
local analysis that uses only local dataset.
- Abstract(参考訳): 複数のデータソースを共同分析して改良された情報を得るマルチソースデータ融合は、かなりの研究の注目を集めている。
複数の医療機関のデータセットでは、データの機密性と相互通信が重要である。
このような場合、反復的相互通信を伴わない次元再現型中間表現の共有によるデータ協調(DC)解析が適切であろう。
個人情報を含むデータの解析には共有データの識別性が不可欠である。
本研究では,直流解析の同定可能性について検討した。
その結果、共有中間表現は教師付き学習のために元のデータと容易に識別できることが分かった。
そこで本研究では,個人情報を含む複数の医療データセットに対して,非可読識別データのみを共有できる非可読識別DC解析を提案する。
提案手法は, ランダムなサンプル置換, 解釈可能なDC解析の概念, 再構成不能な関数の利用に基づく識別可能性に関する懸念を解決する。
医学データセットの数値実験において,提案手法は従来のDC解析の高認識性能を維持しつつ,非可読性を示す。
病院データセットに対して,提案手法は,ローカルデータセットのみを使用するローカル解析よりも認識性能が9ポイント向上することを示す。
関連論文リスト
- Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Leveraging text data for causal inference using electronic health records [1.4182510510164876]
本稿では,電子健康データによる因果推論を支援するためにテキストデータを活用する統一的なフレームワークを提案する。
従来のマッチング分析にテキストデータを組み込むことで、推定処理効果の妥当性を高めることができることを示す。
これらの手法は、臨床データの二次解析範囲を、構造化ERHデータに制限された領域にまで広げる可能性があると考えている。
論文 参考訳(メタデータ) (2023-06-09T16:06:02Z) - Understanding metric-related pitfalls in image analysis validation [59.15220116166561]
この研究は、画像解析におけるバリデーションメトリクスに関連する落とし穴に関する情報にアクセスするための、初めての包括的な共通点を提供する。
バイオメディカル画像解析に焦点をあてるが、他の分野へ移行する可能性があるため、対処された落とし穴はアプリケーションドメイン全体にわたって一般化され、新しく作成されたドメインに依存しない分類に分類される。
論文 参考訳(メタデータ) (2023-02-03T14:57:40Z) - Distributed sequential federated learning [0.0]
ローカルデータを解析することで,価値ある情報を効率的に効果的に集約するデータ駆動手法を開発した。
我々は、シミュレーションデータの数値的研究と、メキシコの32の病院から収集されたCOVID-19データへの応用を用いている。
論文 参考訳(メタデータ) (2023-01-31T21:20:45Z) - Another Use of SMOTE for Interpretable Data Collaboration Analysis [8.143750358586072]
データコラボレーション(DC)分析は、複数の機関にわたるプライバシー保護統合分析のために開発された。
本研究では,データ漏洩のリスクを増大させることなく,認識性能を向上させるアンカーデータ構築手法を提案する。
論文 参考訳(メタデータ) (2022-08-26T06:39:13Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Accuracy and Privacy Evaluations of Collaborative Data Analysis [4.987315310656657]
非モデル共有型フェデレーション学習として,次元性低減データ表現の共有による協調的データ分析が提案されている。
本稿では,本フレームワークの精度とプライバシ評価について分析する。
論文 参考訳(メタデータ) (2021-01-27T00:38:47Z) - Interpretable collaborative data analysis on distributed data [9.434133337939498]
本稿では,フェデレート学習システムの一つとして,非モデル共有協調データ分析手法を提案する。
それぞれのパーティで個別に構築される中間表現を集中化することにより、提案手法は解釈可能なモデルを得る。
数値実験により, 提案手法は, 個人分析よりも, 実世界の問題に対する認識性能の向上を図っている。
論文 参考訳(メタデータ) (2020-11-09T13:59:32Z) - Trajectories, bifurcations and pseudotime in large clinical datasets:
applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。
この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文 参考訳(メタデータ) (2020-07-07T21:04:55Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。