論文の概要: On Optimal Steering to Achieve Exact Fairness
- arxiv url: http://arxiv.org/abs/2509.15759v1
- Date: Fri, 19 Sep 2025 08:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.083329
- Title: On Optimal Steering to Achieve Exact Fairness
- Title(参考訳): エクササイズフェアネスを達成するための最適ステアリングについて
- Authors: Mohit Sharma, Amit Jayant Deshpande, Chiranjib Bhattacharyya, Rajiv Ratn Shah,
- Abstract要約: 経験的に、我々の合成と実世界の両方のデータセットにおける最適なステアリング技術は、実用性を低下させることなく公正性を向上する。
マルチクラス分類におけるバイアスを低減するために, LLM表現のアフィンステアリングを示す。
- 参考スコア(独自算出の注目度): 29.589891801235083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To fix the 'bias in, bias out' problem in fair machine learning, it is important to steer feature distributions of data or internal representations of Large Language Models (LLMs) to ideal ones that guarantee group-fair outcomes. Previous work on fair generative models and representation steering could greatly benefit from provable fairness guarantees on the model output. We define a distribution as ideal if the minimizer of any cost-sensitive risk on it is guaranteed to have exact group-fair outcomes (e.g., demographic parity, equal opportunity)-in other words, it has no fairness-utility trade-off. We formulate an optimization program for optimal steering by finding the nearest ideal distribution in KL-divergence, and provide efficient algorithms for it when the underlying distributions come from well-known parametric families (e.g., normal, log-normal). Empirically, our optimal steering techniques on both synthetic and real-world datasets improve fairness without diminishing utility (and sometimes even improve utility). We demonstrate affine steering of LLM representations to reduce bias in multi-class classification, e.g., occupation prediction from a short biography in Bios dataset (De-Arteaga et al.). Furthermore, we steer internal representations of LLMs towards desired outputs so that it works equally well across different groups.
- Abstract(参考訳): 公平な機械学習における'バイアス・イン・バイアス・アウト'問題を解決するためには、データの特徴分布やLLM(Large Language Models)の内部表現をグループフェアの結果を保証する理想的な問題にステアリングすることが重要である。
公平な生成モデルと表現ステアリングに関する以前の研究は、モデル出力に対する証明可能な公正性の保証から大きな恩恵を受ける可能性がある。
コスト感受性リスクの最小化が、正確なグループフェアの結果(例えば、人口比率、平等機会)を持つことが保証された場合、その分布を理想と定義する。
最適ステアリングのための最適化プログラムを、KL分割の最も近い理想分布を見つけ、その基礎となる分布がよく知られたパラメトリックなファミリー(例えば、正規、ログ正規)から来るときの効率的なアルゴリズムを提供する。
経験的に、我々の合成と実世界の両方のデータセットにおける最適なステアリング技術は、実用性を低下させることなく公正性を向上させる(時には実用性も改善する)。
バイオスデータセット(De-Arteaga et al )の短い伝記から,多クラス分類における偏りを低減するために,LLM表現のアフィンステアリングを実証した。
さらに、LLMの内部表現を所望の出力に向けて操り、異なる群で同じように機能するようにする。
関連論文リスト
- The Statistical Fairness-Accuracy Frontier [50.323024516295725]
機械学習モデルは正確性と公平さのバランスをとる必要があるが、これらの目標はしばしば矛盾する。
このトレードオフを理解するための有用なツールとしてフェアネス・精度フロンティアがあり、フェアネスと精度の両方で同時に改善できないモデルの集合を特徴付ける。
本研究では, 有限サンプル体制におけるFAフロンティアについて検討し, 人口の減少と, 最悪のケースギャップの定量化について検討した。
論文 参考訳(メタデータ) (2025-08-25T03:01:35Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Fair and Optimal Classification via Post-Processing [10.163721748735801]
本稿では、分類問題における人口統計学の特質的トレードオフの完全な評価について述べる。
ランダム化および属性認識フェア分類器によって達成可能な最小誤差率は、ワッサーシュタイン・バリセンタ問題の最適値によって与えられることを示す。
論文 参考訳(メタデータ) (2022-11-03T00:04:04Z) - Domain Adaptation meets Individual Fairness. And they get along [48.95808607591299]
アルゴリズムフェアネスの介入は、機械学習モデルが分散シフトを克服するのに役立つことを示す。
特に,個人フェアネス(IF)の適切な概念を強制することで,MLモデルの分布外精度が向上することを示す。
論文 参考訳(メタデータ) (2022-05-01T16:19:55Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。