論文の概要: No Training Wheels: Steering Vectors for Bias Correction at Inference Time
- arxiv url: http://arxiv.org/abs/2506.18598v1
- Date: Mon, 23 Jun 2025 12:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.985643
- Title: No Training Wheels: Steering Vectors for Bias Correction at Inference Time
- Title(参考訳): トレーニングホイールなし:推論時のバイアス補正のためのステアリングベクトル
- Authors: Aviral Gupta, Armaan Sethi, Ameesh Sethi,
- Abstract要約: 本研究では,大規模言語モデルにおける振る舞いの編集に使用されるベクトルのステアリングにインスパイアされた,安価でトレーニング不要な手法を提案する。
多数派と少数派の間の平均活性化の差を計算して「バイアスベクトル」を定義する。
これにより分類バイアスが減少し、最悪のグループ精度が向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network classifiers trained on datasets with uneven group representation often inherit class biases and learn spurious correlations. These models may perform well on average but consistently fail on atypical groups. For example, in hair color classification, datasets may over-represent females with blond hair, reinforcing stereotypes. Although various algorithmic and data-centric methods have been proposed to address such biases, they often require retraining or significant compute. In this work, we propose a cheap, training-free method inspired by steering vectors used to edit behaviors in large language models. We compute the difference in mean activations between majority and minority groups to define a "bias vector," which we subtract from the model's residual stream. This leads to reduced classification bias and improved worst-group accuracy. We explore multiple strategies for extracting and applying these vectors in transformer-like classifiers, showing that steering vectors, traditionally used in generative models, can also be effective in classification. More broadly, we showcase an extremely cheap, inference time, training free method to mitigate bias in classification models.
- Abstract(参考訳): 不均一なグループ表現を持つデータセットでトレーニングされたニューラルネットワーク分類器は、しばしばクラスバイアスを継承し、急激な相関を学習する。
これらのモデルは平均でよく機能するが、非定型群では一貫して失敗する。
例えば、髪の色分類では、データセットはブロンドの髪を持つ女性を過剰に表現し、ステレオタイプを補強する。
このようなバイアスに対処するために、アルゴリズムやデータ中心の様々な手法が提案されているが、それらはしばしば再訓練や重要な計算を必要とする。
本研究では,大規模言語モデルにおける振る舞いの編集に使用されるステアリングベクトルにインスパイアされた,安価でトレーニング不要な手法を提案する。
多数派と少数派の平均アクティベーションの差を計算し、「バイアスベクトル」を定義する。
これにより分類バイアスが減少し、最悪のグループ精度が向上する。
変換器型分類器にこれらのベクトルを抽出・適用するための複数の戦略を探求し、伝統的に生成モデルで使用されるステアリングベクトルも分類に有効であることを示す。
より広範に、分類モデルにおけるバイアスを軽減するために、非常に安価で、推論時間、学習自由な手法を示す。
関連論文リスト
- ShortcutProbe: Probing Prediction Shortcuts for Learning Robust Models [26.544938760265136]
ディープラーニングモデルは、必然的にターゲットと非本質的な特徴の間の急激な相関を学習する。
本稿では,グループラベルを必要とせず,新たなポストホックスプリアスバイアス緩和フレームワークを提案する。
我々のフレームワークであるShortcutProbeは、与えられたモデルの潜在空間における予測の非破壊性を反映した予測ショートカットを識別する。
論文 参考訳(メタデータ) (2025-05-20T04:21:17Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - An Exploration of How Training Set Composition Bias in Machine Learning
Affects Identifying Rare Objects [0.0]
まれなクラスの例を誇張して無視されないようにするのが一般的である。
また、ソースタイプのバランスがほぼ等しくなるような制限されたデータでトレーニングする練習も頻繁に行われます。
ここでは、これらのプラクティスが、過剰な割り当てソースからレアクラスのモデルに偏りがあることを示します。
論文 参考訳(メタデータ) (2022-07-07T10:26:55Z) - Right for the Right Latent Factors: Debiasing Generative Models via
Disentanglement [20.41752850243945]
統計機械学習手法の主要な前提は、テスト時に遭遇したデータの分布から独立したサンプルにアクセスすることである。
特に、機械学習モデルは、Clever-Hansのような振る舞いを示すことが示されている。
本稿では,人的フィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-01T13:16:18Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。