論文の概要: Quantifying Spuriousness of Biased Datasets Using Partial Information Decomposition
- arxiv url: http://arxiv.org/abs/2407.00482v1
- Date: Sat, 29 Jun 2024 16:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:56:15.246879
- Title: Quantifying Spuriousness of Biased Datasets Using Partial Information Decomposition
- Title(参考訳): 部分的情報分解を用いたバイアスデータセットのスパーラス性の定量化
- Authors: Barproda Halder, Faisal Hamman, Pasan Dissanayake, Qiuyi Zhang, Ilia Sucholutsky, Sanghamitra Dutta,
- Abstract要約: 純粋パターン(spurious pattern)とは、因果関係のないデータセットにおける2つ以上の変数間の数学的関連である。
本研究は,PID(Partial Information Decomposition)と呼ばれる数学的枠組みを用いて,データセット(スプリアス特徴とコア特徴の分割を含む)におけるスプリアス性の最初の情報理論的な定式化を提示する。
我々は、刺激的特徴と中核的特徴が他の対象変数について共有する結合情報内容、すなわちユニーク、冗長、シナジスティックな情報を分離する。
- 参考スコア(独自算出の注目度): 14.82261635235695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spurious patterns refer to a mathematical association between two or more variables in a dataset that are not causally related. However, this notion of spuriousness, which is usually introduced due to sampling biases in the dataset, has classically lacked a formal definition. To address this gap, this work presents the first information-theoretic formalization of spuriousness in a dataset (given a split of spurious and core features) using a mathematical framework called Partial Information Decomposition (PID). Specifically, we disentangle the joint information content that the spurious and core features share about another target variable (e.g., the prediction label) into distinct components, namely unique, redundant, and synergistic information. We propose the use of unique information, with roots in Blackwell Sufficiency, as a novel metric to formally quantify dataset spuriousness and derive its desirable properties. We empirically demonstrate how higher unique information in the spurious features in a dataset could lead a model into choosing the spurious features over the core features for inference, often having low worst-group-accuracy. We also propose a novel autoencoder-based estimator for computing unique information that is able to handle high-dimensional image data. Finally, we also show how this unique information in the spurious feature is reduced across several dataset-based spurious-pattern-mitigation techniques such as data reweighting and varying levels of background mixing, demonstrating a novel tradeoff between unique information (spuriousness) and worst-group-accuracy.
- Abstract(参考訳): 純粋パターン(spurious pattern)とは、因果関係のないデータセットにおける2つ以上の変数間の数学的関連である。
しかし、この突発性の概念は通常、データセットのサンプリングバイアスによって導入され、古典的には形式的な定義を欠いていた。
このギャップに対処するため、この研究は、PID(Partial Information Decomposition)と呼ばれる数学的枠組みを用いて、データセット(スプリアスとコアの特徴の分割を含む)において、最初の情報理論的なスプリアスの形式化を提示する。
具体的には,他の対象変数(例えば,予測ラベル)について,刺激的特徴とコア特徴が共有する結合情報内容を,ユニークな,冗長な,シナジスティックな情報という,異なるコンポーネントに分解する。
そこで我々は,ブラックウェル・サフィシエンシーのルーツを持つユニークな情報を用いて,データセットのスプリアスネスを形式的に定量化し,その望ましい性質を導出する新しい指標を提案する。
私たちは、データセットのスパイラルな特徴において、いかに高いユニークな情報が、モデルが推論のコア機能よりもスパイラルな特徴を選択し、最悪のグループ精度が低いかを実証的に示しています。
また,高次元画像データを扱うことのできるユニークな情報を計算するための,新しいオートエンコーダベースの推定器を提案する。
最後に,データ再重み付けやバックグラウンドミキシングのレベルの変化など,データセットベースのスプリアスパターン緩和技術によって,このスプリアス機能のユニークな情報が減ることを示すとともに,ユニークな情報(スパーラスネス)と最悪のグループ精度の新たなトレードオフを示す。
関連論文リスト
- Partial Information Decomposition for Data Interpretability and Feature Selection [3.7414804164475983]
PIDF(Partial Information Decomposition of Features)は、データの同時解釈と特徴選択のための新しいパラダイムである。
合成データと実世界のデータの両方を用いてPIDFを広範囲に評価し,その可能性と有効性を示した。
論文 参考訳(メタデータ) (2024-05-29T15:54:03Z) - Common-Sense Bias Discovery and Mitigation for Classification Tasks [16.8259488742528]
画像記述に基づいてデータセットの特徴クラスタを抽出するフレームワークを提案する。
解析された特徴と相関は人間に解釈可能であるので、我々はCommon-Sense Bias Discovery (CSBD) という手法を名づける。
実験の結果,2つのベンチマーク画像データセットに対して,複数の分類タスクに新たなバイアスが生じることがわかった。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Gacs-Korner Common Information Variational Autoencoder [102.89011295243334]
本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を提案する。
画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証する。
論文 参考訳(メタデータ) (2022-05-24T17:47:26Z) - Unsupervised Features Ranking via Coalitional Game Theory for
Categorical Data [0.28675177318965034]
教師なしの機能選択は、機能の数を減らすことを目的としている。
導出特徴の選択は、冗長率を下げる競合する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-17T14:17:36Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Capturing patterns of variation unique to a specific dataset [68.8204255655161]
対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
論文 参考訳(メタデータ) (2021-04-16T15:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。