論文の概要: DSO: Direct Steering Optimization for Bias Mitigation
- arxiv url: http://arxiv.org/abs/2512.15926v1
- Date: Wed, 17 Dec 2025 19:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.798649
- Title: DSO: Direct Steering Optimization for Bias Mitigation
- Title(参考訳): DSO: バイアス軽減のためのダイレクトステアリング最適化
- Authors: Lucas Monteiro Paes, Nivedha Sivakumar, Yinong Oliver Wang, Masha Fedzechkina Donaldson, Luca Zappella, Nicholas Apostoloff,
- Abstract要約: 例えば、視覚言語モデル(VLM)では、部屋のどの人が医師で視覚障害のある人を助けるかを特定する。
しかし、VLMの決定は入力中の人々の認識された人口統計特性の影響を受けており、女性を医師として特定できないなど、偏見のある結果につながる可能性がある。
モデル性能の制御を維持しつつバイアスを軽減するように調整された、強化学習を用いてステアリングアクティベーションの線形変換を求めるダイレクトステアリング最適化(DSO)を提案する。
- 参考スコア(独自算出の注目度): 8.188172971829092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models are often deployed to make decisions on behalf of users, such as vision-language models (VLMs) identifying which person in a room is a doctor to help visually impaired individuals. Yet, VLM decisions are influenced by the perceived demographic attributes of people in the input, which can lead to biased outcomes like failing to identify women as doctors. Moreover, when reducing bias leads to performance loss, users may have varying needs for balancing bias mitigation with overall model capabilities, highlighting the demand for methods that enable controllable bias reduction during inference. Activation steering is a popular approach for inference-time controllability that has shown potential in inducing safer behavior in large language models (LLMs). However, we observe that current steering methods struggle to correct biases, where equiprobable outcomes across demographic groups are required. To address this, we propose Direct Steering Optimization (DSO) which uses reinforcement learning to find linear transformations for steering activations, tailored to mitigate bias while maintaining control over model performance. We demonstrate that DSO achieves state-of-the-art trade-off between fairness and capabilities on both VLMs and LLMs, while offering practitioners inference-time control over the trade-off. Overall, our work highlights the benefit of designing steering strategies that are directly optimized to control model behavior, providing more effective bias intervention than methods that rely on pre-defined heuristics for controllability.
- Abstract(参考訳): 例えば、視覚言語モデル(VLM)では、部屋のどの人が医師で視覚障害のある人を助けるかを特定する。
しかし、VLMの決定は入力中の人々の認識された人口統計特性の影響を受けており、女性を医師として特定できないなど、偏見のある結果につながる可能性がある。
さらに、バイアスを減らすことでパフォーマンスが損なわれる場合、ユーザーはモデル全体の能力とバイアス緩和のバランスをとる必要性が異なり、推論中に制御可能なバイアス低減を可能にする手法の需要が強調される。
アクティベーションステアリングは、大規模な言語モデル(LLM)において、より安全な振る舞いを誘発する可能性を示す推論時制御性に対する一般的なアプローチである。
しかし,従来のステアリング手法では,人口集団間での等価な結果が必要であり,バイアスの補正に苦慮している。
そこで本研究では、モデル性能の制御を維持しつつバイアスを軽減するために、強化学習を用いて、ステアリングアクティベーションの線形変換を求めるダイレクトステアリング最適化(DSO)を提案する。
我々は, DSO が VLM と LLM の両面において, 公正性と能力の間の最先端のトレードオフを達成し, 実践者によるトレードオフの予測時間制御を実現していることを示す。
全体として、我々の研究は、モデル行動を制御するために直接最適化されたステアリング戦略を設計することの利点を強調し、制御可能性のために事前に定義されたヒューリスティックに依存する方法よりも効果的なバイアス介入を提供する。
関連論文リスト
- Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - Human-assisted Robotic Policy Refinement via Action Preference Optimization [26.144183856600687]
行動選好最適化(Action Preference Optimization、APO)は、視覚・言語・行動モデル(VLA)を人間の操作による選好アライメントによって洗練する手法である。
これを解決するために、APOは相互作用から導出される二元的望ましくない信号を用いた適応的再重み付けアルゴリズムを提案する。
シミュレーションと実世界のシナリオで行われた実験は、より優れた一般化とロバスト性を示す。
論文 参考訳(メタデータ) (2025-06-08T13:14:18Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Understanding Endogenous Data Drift in Adaptive Models with Recourse-Seeking Users [6.782864450313782]
資源制約と競合力学の下で,ユーザの戦略的行動と意思決定システムとの相互作用について検討する。
本稿では,Fair-top-kとDynamic Continual Learningの2つの手法を提案する。
我々の研究は、アルゴリズムによる意思決定がより高い基準を意図せずに強化し、導入に対する内在的障壁を発生させる方法について、経済理論と結びついている。
論文 参考訳(メタデータ) (2025-03-12T12:17:34Z) - Asymptotically Fair Participation in Machine Learning Models: an Optimal
Control Perspective [21.962258178900065]
最先端の機械学習モデルのパフォーマンスは、トレーニングデータセットで表現されていない人口層をテストすると、しばしば低下する。
我々は,最適制御の定式化を通じて,巧妙に公正な参加を実現することの課題に対処することを目的とする。
最適制御解を推定するために、ポントリャーギンの最大原理の効率的な実装を適用する。
論文 参考訳(メタデータ) (2023-11-16T22:28:38Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。