論文の概要: SIFOTL: A Principled, Statistically-Informed Fidelity-Optimization Method for Tabular Learning
- arxiv url: http://arxiv.org/abs/2507.17979v1
- Date: Wed, 23 Jul 2025 23:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.648737
- Title: SIFOTL: A Principled, Statistically-Informed Fidelity-Optimization Method for Tabular Learning
- Title(参考訳): SIFOTL: 言語学習のための原理的,統計的に変形した忠実度最適化手法
- Authors: Shubham Mohole, Sainyam Galhotra,
- Abstract要約: 本稿では,SIFOTL (Statistically-Informed Fidelity-Optimization Method for Tabular Learning) を提案する。
新しいメディケア薬補助を模倣したMEPSパネルデータセットでは、SIFOTLはF1スコア0.85を達成する。
SIFOTLはSynthea ABMに基づいて生成された18種類のEHRデータセットに対して、ノイズのないF1スコアは0.86-0.96で、観測ノイズが注入された場合でも >= 0.75 である。
- 参考スコア(独自算出の注目度): 11.830097026198308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the factors driving data shifts in tabular datasets is a significant challenge for analysis and decision support systems, especially those focusing on healthcare. Privacy rules restrict data access, and noise from complex processes hinders analysis. To address this challenge, we propose SIFOTL (Statistically-Informed Fidelity-Optimization Method for Tabular Learning) that (i) extracts privacy-compliant data summary statistics, (ii) employs twin XGBoost models to disentangle intervention signals from noise with assistance from LLMs, and (iii) merges XGBoost outputs via a Pareto-weighted decision tree to identify interpretable segments responsible for the shift. Unlike existing analyses which may ignore noise or require full data access for LLM-based analysis, SIFOTL addresses both challenges using only privacy-safe summary statistics. Demonstrating its real-world efficacy, for a MEPS panel dataset mimicking a new Medicare drug subsidy, SIFOTL achieves an F1 score of 0.85, substantially outperforming BigQuery Contribution Analysis (F1=0.46) and statistical tests (F1=0.20) in identifying the segment receiving the subsidy. Furthermore, across 18 diverse EHR datasets generated based on Synthea ABM, SIFOTL sustains F1 scores of 0.86-0.96 without noise and >= 0.75 even with injected observational noise, whereas baseline average F1 scores range from 0.19-0.67 under the same tests. SIFOTL, therefore, provides an interpretable, privacy-conscious workflow that is empirically robust to observational noise.
- Abstract(参考訳): グラフデータセットでデータシフトを駆動する要因を特定することは、分析と意思決定支援システム、特にヘルスケアに焦点を当てたシステムにとって重要な課題である。
プライバシールールはデータアクセスを制限し、複雑なプロセスからのノイズは分析を妨げる。
この課題に対処するために, SIFOTL (Statistical-Informed Fidelity-Optimization Method for Tabular Learning) を提案する。
i)プライバシーに適合したデータ要約統計を抽出する。
(II)2つのXGBoostモデルを用いて、LLMの助けを借りてノイズからの干渉信号をアンタングルする
(iii)パレート重み決定木を介してXGBoost出力をマージして、シフトの原因となる解釈可能なセグメントを特定する。
LLM分析のノイズを無視したり、完全なデータアクセスを必要とする既存の分析とは異なり、SIFOTLはプライバシセーフな要約統計のみを使用して、両方の課題に対処する。
SIFOTLは、医療薬補助金を模倣したMEPSパネルデータセットにおいて、その実効性を実証し、F1スコアの0.85を達成し、その補助を受けるセグメントを特定するためのBigQuery Contribution Analysis(F1=0.46)と統計テスト(F1=0.20)を大幅に上回っている。
さらに、Synthea ABMをベースとした18種類のEHRデータセットにおいて、SIFOTLはノイズなしでF1スコアが0.86-0.96、注入された観測ノイズでも0.75であり、ベースライン平均F1スコアは0.19-0.67である。
したがってSIFOTLは、観測ノイズに対して実証的に堅牢な解釈可能でプライバシーに配慮したワークフローを提供する。
関連論文リスト
- Winning the MIDST Challenge: New Membership Inference Attacks on Diffusion Models for Tabular Data Synthesis [10.682673935815547]
既存のプライバシー評価は、しばしばメトリクスや弱いメンバーシップ推論攻撃(MIA)に依存している。
本研究では,拡散に基づく合成に関する厳密なMIA研究を行い,画像モデル用に設計された最先端の攻撃がこの環境で失敗することを明らかにする。
本手法は,ライトウェイト駆動方式で実装され,手動最適化の必要性をなくし,メンバーシップシグナルを効果的に学習する。
論文 参考訳(メタデータ) (2025-03-15T06:13:27Z) - Robust Universum Twin Support Vector Machine for Imbalanced Data [0.0]
機械学習手法の大きな問題の1つは、不均衡なデータセットを分類することである。
不均衡データ(IFUTSVM-ID)に対する直観的ファジィUTSVMを提案する。
雑音や外周の影響を軽減するため,直観主義的なファジィ・メンバシップ・スキームを用いる。
論文 参考訳(メタデータ) (2024-10-27T04:25:42Z) - LoSAM: Local Search in Additive Noise Models with Mixed Mechanisms and General Noise for Global Causal Discovery [2.4305626489408465]
加法雑音モデルの局所探索(LoSAM)は、ANMにおける一意なDAG学習のためのトポロジカル順序であり、因果的機構と一般的な雑音分布が混在している。
一貫性と基準を証明し、スケーラビリティとサンプル効率を確保します。
論文 参考訳(メタデータ) (2024-10-15T16:28:55Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy
Labels [99.70895640578816]
雑音ラベル付きフェデレーション学習(F-LNL)は,協調型分散学習を通じて最適なサーバモデルを求めることを目的としている。
我々はF-LNLの課題に取り組むためにFedDivを提案し、特にフェデレートノイズフィルタと呼ばれるグローバルノイズフィルタを提案する。
論文 参考訳(メタデータ) (2023-12-19T15:46:47Z) - Federated Learning with Instance-Dependent Noisy Label [6.093214616626228]
FedBeatはIDN遷移行列(IDNTM)を用いたグローバルな統計的一貫した分類器の構築を目指している
CIFAR-10 と SVHN で行った実験により,提案手法が最先端手法を著しく上回っていることを確認した。
論文 参考訳(メタデータ) (2023-12-16T05:08:02Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。