論文の概要: Bias Leaves a Gradient Trail: Label-Free Bias Identification via Gradient Probes on Concept Decompositions
- arxiv url: http://arxiv.org/abs/2605.28780v1
- Date: Wed, 27 May 2026 17:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.253793
- Title: Bias Leaves a Gradient Trail: Label-Free Bias Identification via Gradient Probes on Concept Decompositions
- Title(参考訳): Biasがグラディエント・トレイルを離れる:概念分解に関するグラディエント・プローブによるラベルなしバイアス同定
- Authors: Thomas Vitry, Kieran Edgeworth, Stefan Wermter, Jae Hee Lee,
- Abstract要約: 本稿では,凍結視覚モデルにおける突発的概念を識別するためのバイアスラベルのないポストホック法を提案する。
Colored MNIST と Waterbirds では、この手法は既知のスプリアスキューに沿った概念を復元する。
推論時間における上位概念の抑制は、最悪のグループ精度を最大17.9ポイント向上させる。
- 参考スコア(独自算出の注目度): 8.894428198928333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision classifiers can exploit spurious correlations, achieving high in-distribution accuracy yet failing under distribution shift. Existing approaches to bias mitigation and analysis often depend on curated datasets, spurious-attribute or group labels, or retraining, which may be infeasible once a model is deployed or the relevant bias is unknown. We present a bias-label-free, post-hoc method for identifying spurious concepts in frozen vision models, relying only on standard class labels from a held-out audit dataset. For each target class, we collect patches from inputs predicted as that class and apply non-negative matrix factorization to intermediate activations to obtain a bank of interpretable concept vectors. Candidate concepts are then ranked with a bias estimator derived from their interaction with backpropagated gradients on misclassified examples: bias concepts tend to get activated when correcting false negatives and suppressed when correcting false positives. On Colored MNIST and Waterbirds the method recovers concepts aligned with the known spurious cue, and on CelebA it surfaces decision-relevant directions that only partially coincide with the annotated gender attribute; suppressing the top-ranked concepts at inference time improves worst-group accuracy by up to 17.9 percentage points on Waterbirds and 10.4 on CelebA without any retraining or parameter updates. Our method identifies decision-relevant spurious directions that need not coincide with annotated ones, providing both an interpretable auditing tool and an actionable debiasing handle for frozen vision models. Code is available at https://github.com/vitryt/label-free-bias-identification.
- Abstract(参考訳): 視覚分類器は、急激な相関を利用して、分配の精度が高いが、分布シフトでは失敗する。
既存のバイアス緩和と分析へのアプローチは、しばしば、モデルがデプロイされたり、関連するバイアスが不明になったりすると不可能な、キュレートされたデータセット、スプリアス属性またはグループラベル、あるいは再トレーニングに依存する。
本研究では,凍結視覚モデルにおける突発的概念を識別するためのバイアスラベルのないポストホック法について,ホールドアウト監査データセットの標準クラスラベルのみに依存して提案する。
各対象クラスに対して、そのクラスとして予測された入力からパッチを収集し、中間活性化に非負の行列分解を適用し、解釈可能な概念ベクトルのバンクを得る。
バイアス概念は、偽陰性を修正するときに活性化され、偽陽性を修正するときに抑制される傾向がある。
Colored MNIST と Waterbirds では、この手法は既知のスプリアスキューと一致する概念を復元し、CelebA では、注釈付き性属性に部分的に一致した決定関連方向を表面化し、推論時にトップランクのコンセプトを抑圧することで、ウォーターバードの最大17.9ポイント、CelebA の10.4ポイントまで、トレーニングやパラメータ更新を行わずに、最悪のグループ精度を向上させる。
提案手法は, 注釈付きと一致しない決定関連刺激方向を同定し, 凍結視覚モデルに対する解釈可能な監査ツールと動作可能なデバイアスハンドの両方を提供する。
コードはhttps://github.com/vitryt/label-free-bias-identificationで入手できる。
関連論文リスト
- Towards Fairness under Label Bias in Image Segmentation: Impact, Measurement and Mitigation [10.15221228043609]
ラベル付きデータセットはアノテーションパイプラインのバイアスを反映します。
本稿では,信頼学習のセグメンテーションへのデータ中心の適応を提案し,トレーニングデータから直接ラベルバイアスを検出する。
クリーンラベルへのアクセスなしに,我々のフレームワークがいかに確実にバイアスを検出し,緩和するかを示す。
論文 参考訳(メタデータ) (2026-05-07T19:47:50Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - ShortcutProbe: Probing Prediction Shortcuts for Learning Robust Models [26.544938760265136]
ディープラーニングモデルは、必然的にターゲットと非本質的な特徴の間の急激な相関を学習する。
本稿では,グループラベルを必要とせず,新たなポストホックスプリアスバイアス緩和フレームワークを提案する。
我々のフレームワークであるShortcutProbeは、与えられたモデルの潜在空間における予測の非破壊性を反映した予測ショートカットを識別する。
論文 参考訳(メタデータ) (2025-05-20T04:21:17Z) - Efficient Online Set-valued Classification with Bandit Feedback [10.882001129426726]
クラス固有の粒度のカバレッジ保証を提供するBandit Class-specific Conformal Prediction (BCCP)を提案する。
BCCPは、各イテレーションで少ないラベルでラベル付けされたデータの課題を克服し、オンライン意思決定環境への適合予測の信頼性と適用性を一般化する。
論文 参考訳(メタデータ) (2024-05-07T15:14:51Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。