論文の概要: Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets
- arxiv url: http://arxiv.org/abs/2203.15234v1
- Date: Tue, 29 Mar 2022 04:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 06:33:32.671159
- Title: Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets
- Title(参考訳): ポーリングされたニューロイメージングデータセットの解析における複数のニュアンス変数の対応性
- Authors: Vishnu Suresh Lokhande, Rudrasis Chakraborty, Sathya N. Ravi, Vikas
Singh
- Abstract要約: 本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
- 参考スコア(独自算出の注目度): 53.34152466646884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pooling multiple neuroimaging datasets across institutions often enables
improvements in statistical power when evaluating associations (e.g., between
risk factors and disease outcomes) that may otherwise be too weak to detect.
When there is only a {\em single} source of variability (e.g., different
scanners), domain adaptation and matching the distributions of representations
may suffice in many scenarios. But in the presence of {\em more than one}
nuisance variable which concurrently influence the measurements, pooling
datasets poses unique challenges, e.g., variations in the data can come from
both the acquisition method as well as the demographics of participants
(gender, age). Invariant representation learning, by itself, is ill-suited to
fully model the data generation process. In this paper, we show how bringing
recent results on equivariant representation learning (for studying symmetries
in neural networks) instantiated on structured spaces together with simple use
of classical results on causal inference provides an effective practical
solution. In particular, we demonstrate how our model allows dealing with more
than one nuisance variable under some assumptions and can enable analysis of
pooled scientific datasets in scenarios that would otherwise entail removing a
large portion of the samples.
- Abstract(参考訳): 組織にまたがる複数の神経画像データセットをプールすることで、関係性(例えば、リスク要因と疾患の結果の間の関係)を評価するとき、統計力の向上が可能になる。
可変性の源(例えば、異なるスキャナ)しか存在しない場合、ドメイン適応と表現の分布のマッチングは、多くのシナリオにおいて十分である。
しかし、測定に同時に影響を及ぼす1つ以上のニュアンス変数が存在する場合、プールデータセットは、例えば、データのバリエーションは、取得方法と、参加者の人口統計(性別、年齢)の両方から生じる、ユニークな課題を生じさせる。
不変表現学習自体は、データ生成プロセスを完全にモデル化するのに不適当である。
本稿では,構造化空間上での同変表現学習(ニューラルネットワークにおける対称性の研究)に関する最近の結果と,因果推論における古典的結果の簡易利用が,効果的な実用的解決策となることを示す。
特に、いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分が取り除かれるシナリオにおいて、プールされた科学データセットの分析を可能にする。
関連論文リスト
- Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - Pooling Image Datasets With Multiple Covariate Shift and Imbalance [22.53402104452306]
カテゴリー論の観点からこの問題がいかに単純かつ効果的な解をもたらすかを示す。
提案手法の有効性を,実データを用いた広範囲な実験により示す。
論文 参考訳(メタデータ) (2024-03-05T02:20:33Z) - Conditional Generative Models are Sufficient to Sample from Any Causal Effect Estimand [9.460857822923842]
観測データからの因果推論は、信頼できる機械学習における多くの応用において重要な役割を果たす。
任意の因果グラフを与えられた任意の介入分布からサンプリングする方法を示す。
またテキストと画像変数を含むMIMIC-CXRデータセットから高次元干渉サンプルを生成する。
論文 参考訳(メタデータ) (2024-02-12T05:48:31Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues [19.4921353136871]
実験サンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと、テストデータが観察された不変性と急激な特徴の異なる相関を示す場合の相関シフトの2種類について検討した。
そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。
論文 参考訳(メタデータ) (2023-05-09T23:40:23Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。