論文の概要: FairSteer: Inference Time Debiasing for LLMs with Dynamic Activation Steering
- arxiv url: http://arxiv.org/abs/2504.14492v1
- Date: Sun, 20 Apr 2025 04:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:15:41.967854
- Title: FairSteer: Inference Time Debiasing for LLMs with Dynamic Activation Steering
- Title(参考訳): FairSteer: 動的アクティベーションステアリングによるLCMの推論時間偏り
- Authors: Yichen Li, Zhiting Fan, Ruizhe Chen, Xiaotang Gai, Luqi Gong, Yan Zhang, Zuozhu Liu,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングコーパスからバイアスを捉える傾向があり、潜在的にネガティブな社会的影響をもたらす。
提案するFairSteerは,カスタマイズしたプロンプト設計やモデル再訓練を必要とせずに,新しい推論時脱バイアスフレームワークである。
- 参考スコア(独自算出の注目度): 12.65682270967556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are prone to capturing biases from training corpus, leading to potential negative social impacts. Existing prompt-based debiasing methods exhibit instability due to their sensitivity to prompt changes, while fine-tuning-based techniques incur substantial computational overhead and catastrophic forgetting. In this paper, we propose FairSteer, a novel inference-time debiasing framework without requiring customized prompt design or model retraining. Motivated by the linear representation hypothesis, our preliminary investigation demonstrates that fairness-related features can be encoded into separable directions in the hidden activation space. FairSteer operates in three steps: biased activation detection, debiasing steering vector (DSV) computation, and dynamic activation steering. Specifically, it first trains a lightweight linear classifier to detect bias signatures in activations, and then computes DSVs as intervention directions derived from small contrastive prompt pairs. Subsequently, it performs debiasing by adjusting activations with DSVs in the inference stage. Comprehensive evaluation with six LLMs demonstrates the superiority of FairSteer across question-answering, counterfactual input evaluation and open-ended text generation tasks. Code will be released.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングコーパスからバイアスを捉える傾向があり、潜在的にネガティブな社会的影響をもたらす。
既存のプロンプトベースのデバイアス法は、変化の速さに敏感なため不安定であり、微調整ベースの手法は計算オーバーヘッドと破滅的な忘れを生じさせる。
本稿では,提案するFairSteerを提案する。これは,カスタマイズされたプロンプト設計やモデル再訓練を必要とせずに,新しい推論時脱バイアスフレームワークである。
線形表現仮説に触発された予備研究により, 隠れ活性化空間において, 公平性に関連する特徴を分離可能な方向に符号化できることが実証された。
FairSteerは、バイアスドアクティベーション検出、デバイアスングステアリングベクトル(DSV)計算、動的アクティベーションステアリングという3つのステップで動作する。
具体的には、まず軽量線形分類器を訓練し、アクティベーション中のバイアスシグネチャを検出し、次に小さなコントラスト的なプロンプトペアから導かれる干渉方向としてDSVを計算する。
その後、推論段階でDSVとアクティベーションを調整することでデバイアスを行う。
6つのLCMによる総合的な評価は、質問応答、反実的入力評価、オープンなテキスト生成タスクにおけるFairSteerの優位性を示す。
コードはリリースされる。
関連論文リスト
- Investigating task-specific prompts and sparse autoencoders for activation monitoring [0.0]
言語モデルの内部アクティベーションは、これに役立つ追加情報をエンコードする。
最近の研究は、単純線形探索を改善するいくつかのアプローチを提案している。
我々は,これらの手法の新たな改良を開発し,検証し,比較する。
論文 参考訳(メタデータ) (2025-04-28T21:28:17Z) - Robust Partial-Label Learning by Leveraging Class Activation Values [0.0]
例えば、人間のアノテータは同じインスタンスに競合するクラスラベルを割り当てる。
本稿では、ニューラルネットワークのクラスアクティベーション値の大きさを利用して、不確かさを明確に表現する主観論理に基づく新しい手法を提案する。
提案手法は,高騒音下での予測性能において,より堅牢な予測を行うことを示す。
論文 参考訳(メタデータ) (2025-02-17T12:30:05Z) - Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model [41.55165760439727]
視覚言語モデル(VLM)は、さまざまな下流タスクに取り組むために、トレーニング済みの大きなモデルを活用することで、機械学習に革命をもたらした。
ラベル効率適応と推論のためのグラフベースの手法を提案する。
提案手法は,テキストプロンプト,少数ショット例,テストサンプルのグラフを動的に構築する。
論文 参考訳(メタデータ) (2024-12-24T09:15:00Z) - Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Steering Language Models With Activation Engineering [40.04138190785384]
アクティベーションエンジニアリングを導入し、モデル出力を制御(またはステア)するためにアクティベーションの推論時間を変更する。
LLaMA-3 や OPT などのモデルを用いて, 負対正の感情変化と解毒を行う。
ActAddは、ターゲット外のタスクのパフォーマンスを維持しながら、高レベルの出力特性(トピックや感情など)を推論時間で制御する。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - D-CALM: A Dynamic Clustering-based Active Learning Approach for
Mitigating Bias [13.008323851750442]
本稿では,クラスタリングとアノテーションを動的に調整する適応型クラスタリングに基づく能動的学習アルゴリズムD-CALMを提案する。
感情,ヘイトスピーチ,ダイアログ行為,書籍型検出など,多種多様なテキスト分類タスクのための8つのデータセットの実験により,提案アルゴリズムがベースラインALアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-05-26T15:17:43Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Constraining Representations Yields Models That Know What They Don't
Know [2.729898906885749]
ニューラルネットワークのよく知られた障害モードは、誤った予測を確実に返すことである。
この研究は、これらの問題に広く一般的な方法で対処するための新しい方向性を示す。
私たちは各クラスにユニークな、固定された、ランダムに生成されたバイナリベクタを割り当てます。
我々は、入力サンプルのクラスに従って、そのクロスディープなアクティベーションパターンが適切なクラスコードを予測するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T18:28:00Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。