論文の概要: Moral Sensitivity in LLMs: A Tiered Evaluation of Contextual Bias via Behavioral Profiling and Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2605.03217v1
- Date: Mon, 04 May 2026 23:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.678436
- Title: Moral Sensitivity in LLMs: A Tiered Evaluation of Contextual Bias via Behavioral Profiling and Mechanistic Interpretability
- Title(参考訳): LLMにおけるモラル感性:行動プロファイリングと機械的解釈可能性による文脈バイアスの評価
- Authors: Yash Aggarwal, Atmika Gorti, Vinija Jain, Aman Chadha, Krishnaprasad Thirunarayan, Manas Gaur,
- Abstract要約: 大規模言語モデル(LLM)は、微妙な倫理的推論を必要とする設定に徐々にデプロイされている。
偏りのある出力の確率を定量化する指標であるMoral Sensitivity Index (MSI)を導入する。
我々は、モデル間で最高のMSIスコアを生み出した犯罪バイアスシナリオを選択する。
- 参考スコア(独自算出の注目度): 22.32075837181307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in settings that require nuanced ethical reasoning, yet existing bias evaluations treat model outputs as simply "biased" or "unbiased." This binary framing misses the gradual, context-sensitive way bias actually emerges. We address this gap in two stages: behavioral profiling and mechanistic validation. In the behavioral stage, we introduce the Moral Sensitivity Index (MSI), a metric that quantifies the probability of biased output across a graduated, seven-tier stress test ranging from abstract numerical problems to scenarios rooted in historical and socioeconomic injustice. Evaluating four leading models (Claude 3.5, Qwen 3.5, Llama 3, and Gemini 1.5), we identify distinct behavioral signatures shaped by alignment design: for instance, Gemini 1.5 reaches 72.7% MSI by Tier 5 under socioeconomic framing, while Claude exhibits sharp suppression consistent with identity-based safety training. We then verify these behavioral patterns mechanistically. We select criminal-bias scenarios, which produced the highest MSI scores across models, as probes and apply logit lens, attention analysis, activation patching, and semantic probing to a controlled set of six models spanning three capability tiers: small language models (SLMs), instruction-tuned base models, and reasoning-distilled variants. Circuit-level analysis reveals a U-curve of bias: SLMs exhibit strong criminal bias; scaling to instruction-tuned models eliminates it; reasoning distillation reintroduces bias to SLM-like levels despite identical parameter counts, suggesting distillation compresses reasoning traces in ways that reactivate shallow statistical associations. Critically, the socially loaded cues that drive high MSI scores activate the same bias-driving circuits identified mechanistically, providing cross-stage validation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、微妙な倫理的推論を必要とする設定に徐々に展開されているが、既存のバイアス評価では、モデル出力を単に「バイアス」または「バイアス」として扱う。
このバイナリフレーミングは、徐々に、文脈に敏感なバイアスが実際に現れるのを見逃します。
このギャップには,行動プロファイルと機械的検証という2つの段階がある。
行動の段階では,総合的な数値問題から歴史的・社会経済的不正に根ざしたシナリオまで,既成の7段階のストレステストにおいて,偏りのある出力の確率を定量化する指標であるMoral Sensitivity Index(MSI)を導入する。
4つの主要なモデル(Claude 3.5、Qwen 3.5、Llama 3、Gemini 1.5)を評価することで、アライメント設計によって形成された異なる行動シグネチャを識別する。
次に、これらの行動パターンを機械的に検証する。
我々は,小言語モデル(SLM),命令調整ベースモデル,推論蒸留モデルという3つの機能レベルにまたがる6つのモデルに対して,プローブやロジットレンズ,アテンション解析,アクティベーションパッチ,セマンティックプローブなどのモデル間で最高のMSIスコアを生成する犯罪バイアスシナリオを選択する。
SLMは強い犯罪バイアスを示し、命令調整されたモデルへのスケーリングはそれを排除し、蒸留の推論は同一のパラメータ数にもかかわらずSLMのようなレベルにバイアスを再導入し、蒸留は浅い統計的関連を活性化する方法で推論トレースを圧縮する。
批判的に、高いMSIスコアを駆動する社会的にロードされたキューは、機械的に同一のバイアス駆動回路を活性化し、ステージ横断の検証を提供する。
関連論文リスト
- Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments [0.19703625025720697]
シングルタスクベンチマークでは、モデルのバイアスプロファイルの1スライスしか取得できないため、これを見逃している。
本研究では,9種類のバイアスを包含する階層型分類を導入する。
我々は,textasciitilde45Kプロンプトを用いた7つの商用およびオープンウェイトLCMについて検討し,3つの系統パターンを見出した。
論文 参考訳(メタデータ) (2026-04-03T03:03:21Z) - Invisible Influences: Investigating Implicit Intersectional Biases through Persona Engineering in Large Language Models [4.145971099162064]
大型言語モデル(LLM)は人間の言語生成に優れるが、しばしば暗黙の交叉バイアスを埋めて増幅する。
既存のバイアス監査は、絶対結合強度を定量化する静的な埋め込みベースのテスト(CEAT、I-WEAT、I-SEAT)に依存している。
本稿では,Bias Amplification Differential and Explainability Score(BADx)を紹介する。
論文 参考訳(メタデータ) (2026-03-16T15:57:12Z) - MBD: A Model-Based Debiasing Framework Across User, Content, and Model Dimensions [50.00784452900918]
この課題に対処する一般モデルベースデバイアス(MBD)フレームワークを提案する。
任意のコホートに対するエンゲージメント分布の文脈平均と分散を明示的に推定する。
この統合により、フレームワークはバイアス付き生信号からバイアスなしの表現に変換することができる。
論文 参考訳(メタデータ) (2026-03-15T15:07:01Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Implicit Bias-Like Patterns in Reasoning Models [0.5729426778193398]
暗黙のバイアス(英語: Implicit bias)とは、知覚、判断、行動を形成する自動的な精神過程を指す。
本稿では、推論モデルにおける暗黙的なバイアス様処理を研究するために、推論モデルインプシット・アソシエーション・テスト(RM-IAT)を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:40:02Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。