論文の概要: Can SAEs reveal and mitigate racial biases of LLMs in healthcare?
- arxiv url: http://arxiv.org/abs/2511.00177v1
- Date: Fri, 31 Oct 2025 18:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.65327
- Title: Can SAEs reveal and mitigate racial biases of LLMs in healthcare?
- Title(参考訳): SAEは医療におけるLSMの人種的偏見を明らかにし、緩和できるのか?
- Authors: Hiba Ahsan, Byron C. Wallace,
- Abstract要約: Sparse Autoencoders (SAEs) が、レースとスティグマティゼーションの概念の関連性を明らかにすることができるかを評価する。
われわれはこの潜伏型モデルを用いて黒人患者のアウトプットを生成する。
これは簡単な設定で改善するが、より現実的で複雑な臨床タスクでは成功しない。
- 参考スコア(独自算出の注目度): 15.038824492025457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly being used in healthcare. This promises to free physicians from drudgery, enabling better care to be delivered at scale. But the use of LLMs in this space also brings risks; for example, such models may worsen existing biases. How can we spot when LLMs are (spuriously) relying on patient race to inform predictions? In this work we assess the degree to which Sparse Autoencoders (SAEs) can reveal (and control) associations the model has made between race and stigmatizing concepts. We first identify SAE latents in Gemma-2 models which appear to correlate with Black individuals. We find that this latent activates on reasonable input sequences (e.g., "African American") but also problematic words like "incarceration". We then show that we can use this latent to steer models to generate outputs about Black patients, and further that this can induce problematic associations in model outputs as a result. For example, activating the Black latent increases the risk assigned to the probability that a patient will become "belligerent". We evaluate the degree to which such steering via latents might be useful for mitigating bias. We find that this offers improvements in simple settings, but is less successful for more realistic and complex clinical tasks. Overall, our results suggest that: SAEs may offer a useful tool in clinical applications of LLMs to identify problematic reliance on demographics but mitigating bias via SAE steering appears to be of marginal utility for realistic tasks.
- Abstract(参考訳): LLMは医療での利用が増えている。
これにより、医師は干ばつから解放され、より優れたケアを大規模に提供できるようになる。
しかし、この分野でのLSMの使用はリスクをもたらし、例えば、そのようなモデルが既存のバイアスを悪化させる可能性がある。
LLMが(一時的に)患者レースに依存して予測を通知する時、私たちはどのように見つけることができるのか?
本研究では,Sparse Autoencoders (SAEs) が,レースとシグマライズの概念の間のモデルが生み出した関係を明らかにする(そして制御する)程度を評価する。
我々はまず,黒色個体と相関しているように見えるGemma-2モデルにおいて,SAE潜伏剤を同定した。
この潜伏剤は合理的な入力シーケンス(例えば「アフリカ系アメリカ人」)を活性化するが、同時に「投獄」のような問題のある単語も活性化する。
次に、この潜伏モデルを用いて、黒人患者のアウトプットを生成することを示し、その結果、モデルアウトプットに問題のある関連を誘導できることを示す。
例えば、黒の潜伏剤を活性化すると、患者が「敵」になる確率に割り当てられるリスクが増大する。
我々は, 潜伏剤によるそのような操舵がバイアス軽減にどのような効果があるかを評価する。
これは簡単な設定で改善するが、より現実的で複雑な臨床タスクでは成功しない。
SAEはLSMの臨床的応用に有用なツールであり、人口動態への問題的依存を識別するが、SAEステアリングによる偏見の軽減は現実的なタスクには限界があると考えられる。
関連論文リスト
- Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare [7.075750841525739]
大きな言語モデル(LLM)によって駆動されるシリコの人間の振る舞いをシミュレートするために、生成剤がますます使われてきた
本研究は、医療意思決定に関する理解アメリカ研究(UAS)の調査データと、生成エージェントからのシミュレーション応答を比較した。
人口統計に基づくプロンプトエンジニアリングを用いて、調査回答者のデジタルツインを作成し、異なるLLMが現実世界の振る舞いをいかにうまく再現するかを分析する。
論文 参考訳(メタデータ) (2025-04-11T05:11:40Z) - Elucidating Mechanisms of Demographic Bias in LLMs for Healthcare [29.657009991341145]
性別情報は層内で高度に局所化されており、パッチを当てることで推論時に確実に操作できることがわかった。
患者人種の表現は多少分散しているが、ある程度は介入することもできる。
論文 参考訳(メタデータ) (2025-02-18T22:40:40Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Taken out of context: On measuring situational awareness in LLMs [5.615130420318795]
大規模言語モデル(LLM)における「状況認識の出現」をよりよく理解することを目的としている。
モデルは、モデルであることを認識しているかどうかを状況的に認識し、現在テスト中なのか、デプロイ中なのかを認識できます。
論文 参考訳(メタデータ) (2023-09-01T17:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。