論文の概要: Another Use of SMOTE for Interpretable Data Collaboration Analysis
- arxiv url: http://arxiv.org/abs/2208.12458v1
- Date: Fri, 26 Aug 2022 06:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:11:20.366087
- Title: Another Use of SMOTE for Interpretable Data Collaboration Analysis
- Title(参考訳): 解釈可能データ協調解析におけるSMOTEのもう1つの活用
- Authors: Akira Imakura, Masateru Kihira, Yukihiko Okada, Tetsuya Sakurai
- Abstract要約: データコラボレーション(DC)分析は、複数の機関にわたるプライバシー保護統合分析のために開発された。
本研究では,データ漏洩のリスクを増大させることなく,認識性能を向上させるアンカーデータ構築手法を提案する。
- 参考スコア(独自算出の注目度): 8.143750358586072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, data collaboration (DC) analysis has been developed for
privacy-preserving integrated analysis across multiple institutions. DC
analysis centralizes individually constructed dimensionality-reduced
intermediate representations and realizes integrated analysis via collaboration
representations without sharing the original data. To construct the
collaboration representations, each institution generates and shares a
shareable anchor dataset and centralizes its intermediate representation.
Although, random anchor dataset functions well for DC analysis in general,
using an anchor dataset whose distribution is close to that of the raw dataset
is expected to improve the recognition performance, particularly for the
interpretable DC analysis. Based on an extension of the synthetic minority
over-sampling technique (SMOTE), this study proposes an anchor data
construction technique to improve the recognition performance without
increasing the risk of data leakage. Numerical results demonstrate the
efficiency of the proposed SMOTE-based method over the existing anchor data
constructions for artificial and real-world datasets. Specifically, the
proposed method achieves 9 percentage point and 38 percentage point performance
improvements regarding accuracy and essential feature selection, respectively,
over existing methods for an income dataset. The proposed method provides
another use of SMOTE not for imbalanced data classifications but for a key
technology of privacy-preserving integrated analysis.
- Abstract(参考訳): 近年,複数の機関にまたがるプライバシー保護統合分析のためのデータコラボレーション(DC)分析が開発されている。
DC解析は、個別に構築された次元再現型中間表現を集中化し、元のデータを共有せずに協調表現による統合解析を実現する。
協調表現を構築するために、各機関は共有可能なアンカーデータセットを生成し、その中間表現を集中化する。
ランダムアンカーデータセットは, 一般にDC解析においてよく機能するが, 生データセットに近い分布を持つアンカーデータセットを用いることで, 特に直流解析において, 認識性能の向上が期待できる。
本研究では,合成マイノリティオーバーサンプリング手法(smote)の拡張に基づき,データ漏洩のリスクを増大させることなく認識性能を向上させるアンカーデータ構築手法を提案する。
数値計算により,人工および実世界のデータセットに対する既存のアンカーデータ構築に対するSMOTE法の有効性を示す。
具体的には、既存の所得データセットの方法に対して、正確性および本質的特徴選択に関して、9パーセンテージポイントと38パーセンテージのパフォーマンス改善を達成する。
提案手法は、不均衡なデータ分類ではなく、プライバシー保護統合分析の重要な技術としてSMOTEの別の用途を提供する。
関連論文リスト
- Sparse outlier-robust PCA for multi-source data [2.3226893628361687]
そこで本研究では,重要な特徴と局所的なソース固有パターンを同時に選択する新しいPCA手法を提案する。
我々は,グローバルな局所構造的空間パターンに対応するペナルティを持つ正規化問題を開発する。
本稿では,乗算器の交互方向法による提案手法の効率的な実装について述べる。
論文 参考訳(メタデータ) (2024-07-23T08:55:03Z) - Cross-feature Contrastive Loss for Decentralized Deep Learning on
Heterogeneous Data [8.946847190099206]
異種データに基づく分散学習のための新しい手法を提案する。
一対の隣接するエージェントのクロスフィーチャーは、他のエージェントのモデルパラメータに関するエージェントのデータから得られる特徴である。
実験の結果,提案手法は異種データを用いた分散学習手法に比べて性能(テスト精度が0.2~4%向上)が優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T14:48:23Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Towards High-Performance Exploratory Data Analysis (EDA) Via Stable
Equilibrium Point [5.825190876052149]
我々は,EDAの効率とソリューション品質を改善するための安定平衡点(SEP)ベースのフレームワークを導入する。
提案手法の非常にユニークな特性は、SEPがデータセットのクラスタリング特性を直接符号化することである。
論文 参考訳(メタデータ) (2023-06-07T13:31:57Z) - Non-readily identifiable data collaboration analysis for multiple
datasets including personal information [7.315551060433141]
データ機密性と機関間通信は、医療データセットにとって重要である。
本研究では,データ協調分析の識別可能性について検討した。
提案手法は,高い認識性能を維持しつつ,非可読性を示す。
論文 参考訳(メタデータ) (2022-08-31T03:19:17Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Privacy-preserving Logistic Regression with Secret Sharing [0.0]
Newton-Raphson法を用いて秘密共有型プライバシー保護ロジスティック回帰プロトコルを提案する。
提案手法は,複数ソースからのロジスティック回帰を安全にトレーニングするために,大規模なデータセットを処理可能であることを示す。
論文 参考訳(メタデータ) (2021-05-14T14:53:50Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。