論文の概要: Algorithmic Fragility and Persona Bias in LLM-Generated Autistic Communication
- arxiv url: http://arxiv.org/abs/2605.26397v2
- Date: Mon, 01 Jun 2026 17:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.519483
- Title: Algorithmic Fragility and Persona Bias in LLM-Generated Autistic Communication
- Title(参考訳): LLMによる自閉症コミュニケーションにおけるアルゴリズム的脆弱性とペルソナバイアス
- Authors: Naba Rizvi, Mohammed Rizvi, Harper Strickland, Saleha Ahmedi, Nedjma Ousidhoum,
- Abstract要約: 安全アライメントは明らかに有害な出力を減少させるが、衛生的で神経ノルミティブなコミュニケーションの表現を不注意に符号化する。
本研究では、この符号化を二重対人書き直しパラダイムを用いて検討し、10大言語モデルに対して、自閉症または神経型ペルソナから自然に発生する自閉症の言説を書き換えるよう促す。
以上より,現在のアライメントトレーニングは,定性的分析によってのみ,ペルソナ特異的な生成的分解を引き起こすことが示唆された。
- 参考スコア(独自算出の注目度): 4.032192350354742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment reduces explicitly harmful outputs but inadvertently encodes a sanitized, neuronormative representation of marginalized communication. We investigate this encoding using a dual-persona rewrite paradigm, prompting ten large language models (LLMs) to rewrite naturally occurring autistic discourse from either an autistic or neurotypical persona. We uncover autistic-persona rewrites diverge significantly more in lexical form and affective register than neurotypical rewrites, despite equivalent semantic similarity. Furthermore, most models collapse cross-persona generations into near-identical outputs. To uncover the mechanisms behind this generative breakdown, we introduce a multi-agent qualitative analysis framework. Our results reveal systemic output erasure, stereotyped hallucination, and task-evasive meta-commentary are pervasive failure modes for this task that cluster by alignment strategy rather than parameter scale. Finally, our targeted comparison with autistic human annotators demonstrates that community-insider knowledge produces systematic label reversals relative to LLM classifications. Our findings indicate that current alignment training causes persona-specific generative breakdown visible only through qualitative analysis, confirming a deep representational gap that prompt engineering cannot resolve.
- Abstract(参考訳): 安全アライメントは明らかに有害な出力を減少させるが、衛生的で神経ノルミティブなコミュニケーションの表現を不注意に符号化する。
両対人書き直しのパラダイムを用いて、この符号化を検証し、10大言語モデル(LLM)に対して、自閉症または神経型ペルソナから自然に発生する自閉症の言説を書き換えるよう促す。
意味的類似性に拘わらず, 自己愛的人格的書き直しは, 神経型書き直しよりも, 語彙形式や情緒的書き直しにおいて著しく多様であることがわかった。
さらに、ほとんどのモデルは対人世代をほぼ同一の出力に分解する。
この生成的破壊の背後にあるメカニズムを明らかにするために,マルチエージェント定性分析フレームワークを導入する。
この結果から, パラメータスケールではなくアライメント戦略によってクラスタリングするタスクに対して, 出力消去, ステレオタイプ幻覚, タスク回避メタコンプレクタは, 広範囲にわたる障害モードであることが明らかとなった。
最後に, 自閉症者のアノテータとの比較により, LLM分類と比較して, コミュニティ・インスパイアの知識が系統的なラベル逆転を生じさせることを示した。
現状のアライメントトレーニングでは,定性的分析によってのみ人格特異的な生成的分解が見られ,工学的に解決できない深い表現的ギャップが確認できた。
関連論文リスト
- Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations [48.69228180369574]
ヘイトスピーチアノテーションはコストが高く、主観的で、アノテータの意見の相違がちである。
大規模言語モデル(LLM)が人間の判断とどのように一致しているかを分析する。
本研究では, ヘイトスピーチコーパスから連続ヘイトスピーチスコアを再構成する。
論文 参考訳(メタデータ) (2026-05-26T13:44:48Z) - Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease [72.0406069194794]
音声表現は、しばしば言語に依存した構造を符号化する。
本稿では,ソース言語による自己教師型音声表現とターゲット言語分布とを一致させる表現レベル言語シフトを提案する。
チェコ語,ドイツ語,スペイン語におけるパーキンソン病音声データセットの経口DDK記録に対するアプローチについて検討した。
論文 参考訳(メタデータ) (2026-03-23T17:23:39Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - AUTALIC: A Dataset for Anti-AUTistic Ableist Language In Context [1.3334268990558924]
AUTALICは、文脈における反音響的有能言語の検出に特化した最初のベンチマークデータセットである。
データセットはRedditから収集された2,400の自閉症関連文からなり、周囲の文脈を伴い、神経多様性の背景を持つ訓練された専門家によって注釈付けされている。
論文 参考訳(メタデータ) (2024-10-21T21:21:29Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。