論文の概要: Can SAEs reveal and mitigate racial biases of LLMs in healthcare?
- arxiv url: http://arxiv.org/abs/2511.00177v1
- Date: Fri, 31 Oct 2025 18:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.65327
- Title: Can SAEs reveal and mitigate racial biases of LLMs in healthcare?
- Title(参考訳): SAEは医療におけるLSMの人種的偏見を明らかにし、緩和できるのか?
- Authors: Hiba Ahsan, Byron C. Wallace,
- Abstract要約: Sparse Autoencoders (SAEs) が、レースとスティグマティゼーションの概念の関連性を明らかにすることができるかを評価する。
われわれはこの潜伏型モデルを用いて黒人患者のアウトプットを生成する。
これは簡単な設定で改善するが、より現実的で複雑な臨床タスクでは成功しない。
- 参考スコア(独自算出の注目度): 15.038824492025457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly being used in healthcare. This promises to free physicians from drudgery, enabling better care to be delivered at scale. But the use of LLMs in this space also brings risks; for example, such models may worsen existing biases. How can we spot when LLMs are (spuriously) relying on patient race to inform predictions? In this work we assess the degree to which Sparse Autoencoders (SAEs) can reveal (and control) associations the model has made between race and stigmatizing concepts. We first identify SAE latents in Gemma-2 models which appear to correlate with Black individuals. We find that this latent activates on reasonable input sequences (e.g., "African American") but also problematic words like "incarceration". We then show that we can use this latent to steer models to generate outputs about Black patients, and further that this can induce problematic associations in model outputs as a result. For example, activating the Black latent increases the risk assigned to the probability that a patient will become "belligerent". We evaluate the degree to which such steering via latents might be useful for mitigating bias. We find that this offers improvements in simple settings, but is less successful for more realistic and complex clinical tasks. Overall, our results suggest that: SAEs may offer a useful tool in clinical applications of LLMs to identify problematic reliance on demographics but mitigating bias via SAE steering appears to be of marginal utility for realistic tasks.
- Abstract(参考訳): LLMは医療での利用が増えている。
これにより、医師は干ばつから解放され、より優れたケアを大規模に提供できるようになる。
しかし、この分野でのLSMの使用はリスクをもたらし、例えば、そのようなモデルが既存のバイアスを悪化させる可能性がある。
LLMが(一時的に)患者レースに依存して予測を通知する時、私たちはどのように見つけることができるのか?
本研究では,Sparse Autoencoders (SAEs) が,レースとシグマライズの概念の間のモデルが生み出した関係を明らかにする(そして制御する)程度を評価する。
我々はまず,黒色個体と相関しているように見えるGemma-2モデルにおいて,SAE潜伏剤を同定した。
この潜伏剤は合理的な入力シーケンス(例えば「アフリカ系アメリカ人」)を活性化するが、同時に「投獄」のような問題のある単語も活性化する。
次に、この潜伏モデルを用いて、黒人患者のアウトプットを生成することを示し、その結果、モデルアウトプットに問題のある関連を誘導できることを示す。
例えば、黒の潜伏剤を活性化すると、患者が「敵」になる確率に割り当てられるリスクが増大する。
我々は, 潜伏剤によるそのような操舵がバイアス軽減にどのような効果があるかを評価する。
これは簡単な設定で改善するが、より現実的で複雑な臨床タスクでは成功しない。
SAEはLSMの臨床的応用に有用なツールであり、人口動態への問題的依存を識別するが、SAEステアリングによる偏見の軽減は現実的なタスクには限界があると考えられる。
関連論文リスト
- Identifying Features Associated with Bias Against 93 Stigmatized Groups in Language Models and Guardrail Model Safety Mitigation [9.539495585692007]
広範に使用されている3つの大言語モデル(LLM)における93の分類群に対するバイアスを測定する。
以上の結果から,ヒトのシグマはSocialStigmaQAのプロンプトから最も偏ったアウトプットを持つことが明らかとなった。
バイアス軽減のためのガードレールモデルの改善に向けた今後の取り組みを提案する。
論文 参考訳(メタデータ) (2025-12-22T10:20:20Z) - LLMs Can Get "Brain Rot"! [68.08198331505695]
ジャンクウェブテキストへの連続曝露は、大規模言語モデル(LLM)の持続的認知低下を誘導する
実Twitter/Xコーパスで制御された実験を行い、ジャンクと逆制御されたデータセットを構築します。
その結果、データ品質がLLM能力の崩壊の原因であることを示す重要な多視点的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-15T13:28:49Z) - Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare [7.075750841525739]
大きな言語モデル(LLM)によって駆動されるシリコの人間の振る舞いをシミュレートするために、生成剤がますます使われてきた
本研究は、医療意思決定に関する理解アメリカ研究(UAS)の調査データと、生成エージェントからのシミュレーション応答を比較した。
人口統計に基づくプロンプトエンジニアリングを用いて、調査回答者のデジタルツインを作成し、異なるLLMが現実世界の振る舞いをいかにうまく再現するかを分析する。
論文 参考訳(メタデータ) (2025-04-11T05:11:40Z) - Elucidating Mechanisms of Demographic Bias in LLMs for Healthcare [29.657009991341145]
性別情報は層内で高度に局所化されており、パッチを当てることで推論時に確実に操作できることがわかった。
患者人種の表現は多少分散しているが、ある程度は介入することもできる。
論文 参考訳(メタデータ) (2025-02-18T22:40:40Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Taken out of context: On measuring situational awareness in LLMs [5.615130420318795]
大規模言語モデル(LLM)における「状況認識の出現」をよりよく理解することを目的としている。
モデルは、モデルであることを認識しているかどうかを状況的に認識し、現在テスト中なのか、デプロイ中なのかを認識できます。
論文 参考訳(メタデータ) (2023-09-01T17:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。