論文の概要: Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups
- arxiv url: http://arxiv.org/abs/2504.06160v3
- Date: Fri, 11 Apr 2025 20:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 10:02:54.577754
- Title: Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups
- Title(参考訳): ラビットホールをナビゲートする : メンタルヘルスグループをターゲットにしたLDMによる攻撃物語の創発的ビアーゼ
- Authors: Rijul Magu, Arka Dutta, Sean Kim, Ashiqur R. KhudaBukhsh, Munmun De Choudhury,
- Abstract要約: 大規模言語モデル(LLM)によるリスクの高い集団に対する非挑発的標的攻撃の研究は、いまだに未調査である。
本稿は,(1)高度に脆弱なメンタルヘルスグループに対するLSMによる攻撃の明示的評価,(2)相対バイアスの伝播を研究するネットワークベースの枠組み,(3)これらの攻撃から生じる相対的な攻撃の程度を評価すること,の3つの新しい貢献について述べる。
- 参考スコア(独自算出の注目度): 20.07782545235038
- License:
- Abstract: Large Language Models (LLMs) have been shown to demonstrate imbalanced biases against certain groups. However, the study of unprovoked targeted attacks by LLMs towards at-risk populations remains underexplored. Our paper presents three novel contributions: (1) the explicit evaluation of LLM-generated attacks on highly vulnerable mental health groups; (2) a network-based framework to study the propagation of relative biases; and (3) an assessment of the relative degree of stigmatization that emerges from these attacks. Our analysis of a recently released large-scale bias audit dataset reveals that mental health entities occupy central positions within attack narrative networks, as revealed by a significantly higher mean centrality of closeness (p-value = 4.06e-10) and dense clustering (Gini coefficient = 0.7). Drawing from sociological foundations of stigmatization theory, our stigmatization analysis indicates increased labeling components for mental health disorder-related targets relative to initial targets in generation chains. Taken together, these insights shed light on the structural predilections of large language models to heighten harmful discourse and highlight the need for suitable approaches for mitigation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定のグループに対して不均衡なバイアスを示すことが示されている。
しかし、LSMによるリスクの高い住民に対する非挑発的標的攻撃の研究は、いまだに過小評価されている。
本稿は,(1)高度に脆弱なメンタルヘルスグループに対するLSMによる攻撃の明示的評価,(2)相対バイアスの伝播を研究するネットワークベースの枠組み,(3)これらの攻撃から生じる相対的な攻撃の程度を評価すること,の3つの新しい貢献について述べる。
最近発表された大規模偏見監査データセットの解析により、精神保健機関が攻撃物語ネットワーク内の中心的な位置を占めており、密集度(p-値=4.06e-10)と密集度(Gini係数=0.7)が著しく高いことが判明した。
シュティグマタイズ理論の社会学的基礎から、我々のスティグマタイズ分析は、世代チェーンの初期ターゲットに対するメンタルヘルス障害関連ターゲットに対するラベル付け成分の増加を示唆している。
これらの知見は、有害な言論を高め、緩和のための適切なアプローチの必要性を強調するために、大きな言語モデルの構造的先入観に光を当てた。
関連論文リスト
- Metacognitive Myopia in Large Language Models [0.0]
大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。
認知・生態的枠組みとしてメタ認知ミオピアを提案する。
我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることが, メタ認知性ミオピアの5つの症状を引き起こすことを示唆している。
論文 参考訳(メタデータ) (2024-08-10T14:43:57Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Cross-Care: Assessing the Healthcare Implications of Pre-training Data on Language Model Bias [3.455189439319919]
大規模な言語モデル(LLM)におけるバイアスと実世界の知識を評価するための最初のベンチマークフレームワークであるCross-Careを紹介する。
ThePile$のような事前学習コーパスに埋め込まれた人口統計バイアスがLLMの出力にどのように影響するかを評価する。
以上の結果から, LLMの病状有病率と, 集団間での実際の病状有病率との相違が明らかとなった。
論文 参考訳(メタデータ) (2024-05-09T02:33:14Z) - How does promoting the minority fraction affect generalization? A theoretical study of the one-hidden-layer neural network on group imbalance [64.1656365676171]
グループ不均衡は経験的リスク最小化において既知の問題である。
本稿では,個々の集団がサンプルの複雑さ,収束率,平均および群レベルの試験性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2024-03-12T04:38:05Z) - Hidden in Plain Sight: Undetectable Adversarial Bias Attacks on Vulnerable Patient Populations [3.5984704795350315]
本研究では,階層的に標的としたラベル中毒攻撃は,深層学習(DL)モデルにおいて検出不能な診断バイアスをもたらす可能性があることを示す。
以上の結果から, 逆バイアス攻撃は, 外部データセットを用いて評価した場合においても, 予測バイアスを伝播する有意なDLモデルをもたらすことが示唆された。
論文 参考訳(メタデータ) (2024-02-08T14:40:32Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Bias Against 93 Stigmatized Groups in Masked Language Models and
Downstream Sentiment Classification Tasks [2.5690340428649323]
本研究は, 社会的汚職に対する偏見を大規模に検討することにより, 現存する作業における偏見評価の焦点を広げるものである。
アメリカ合衆国では、病気、障害、薬物使用、精神疾患、宗教、セクシュアリティ、社会経済的地位、その他の関連要因に関する幅広い条件を含む93のスティグマタイズドグループに焦点を当てている。
英語学習マスケッド言語モデル(MLM)におけるこれらのグループに対するバイアスとその下流感情分類タスクについて検討した。
論文 参考訳(メタデータ) (2023-06-08T20:46:09Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。