論文の概要: Mechanistic Interpretability with SAEs: Probing Religion, Violence, and Geography in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.17665v1
- Date: Mon, 22 Sep 2025 12:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.362499
- Title: Mechanistic Interpretability with SAEs: Probing Religion, Violence, and Geography in Large Language Models
- Title(参考訳): SAEによる機械論的解釈可能性:大規模言語モデルにおける宗教・暴力・地理学の探索
- Authors: Katharina Simbeck, Mariam Mahran,
- Abstract要約: 本稿では,宗教が大規模言語モデル(LLM)において内部的にどのように表現されるかを検討する。
我々は、宗教と暴力に関連するプロンプトの重複を測定し、アクティベーションコンテキストにおける意味パターンを探索する。
5つの宗教はいずれも内部の結束に匹敵するものであるが、イスラム教は暴力的な言語に関連する特徴と結びついていることが多い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite growing research on bias in large language models (LLMs), most work has focused on gender and race, with little attention to religious identity. This paper explores how religion is internally represented in LLMs and how it intersects with concepts of violence and geography. Using mechanistic interpretability and Sparse Autoencoders (SAEs) via the Neuronpedia API, we analyze latent feature activations across five models. We measure overlap between religion- and violence-related prompts and probe semantic patterns in activation contexts. While all five religions show comparable internal cohesion, Islam is more frequently linked to features associated with violent language. In contrast, geographic associations largely reflect real-world religious demographics, revealing how models embed both factual distributions and cultural stereotypes. These findings highlight the value of structural analysis in auditing not just outputs but also internal representations that shape model behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるバイアスの研究が増えているにもかかわらず、ほとんどの研究は性や人種に焦点を当てており、宗教的なアイデンティティにはほとんど注目していない。
本稿は、宗教がLLMにおいて内部的にどのように表現されているか、そして暴力や地理の概念とどのように交わるかを考察する。
Neuronpedia APIを介して機械的解釈可能性とスパースオートエンコーダ(SAE)を用いて,5モデルにわたる潜在機能アクティベーションを分析する。
我々は、宗教と暴力に関連するプロンプトの重複を測定し、アクティベーション・コンテキストにおける意味パターンを探索する。
5つの宗教はいずれも内部の結束に匹敵するものであるが、イスラム教は暴力的な言語に関連する特徴と結びついていることが多い。
対照的に、地理的な関連性は現実世界の宗教的な人口統計を反映しており、モデルが実際の分布と文化的なステレオタイプの両方を埋め込む方法を明らかにしている。
これらの知見は、出力だけでなく、モデル行動を形成する内部表現においても、監査における構造解析の価値を強調している。
関連論文リスト
- ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - Religious Bias Landscape in Language and Text-to-Image Models: Analysis, Detection, and Debiasing Strategies [16.177734242454193]
言語モデルの普及は、言語モデル固有のバイアスに対する批判的な検査の必要性を強調している。
本研究では,言語モデルとテキスト・ツー・イメージ生成モデルの両方において,宗教的バイアスを系統的に研究する。
論文 参考訳(メタデータ) (2025-01-14T21:10:08Z) - Computational Analysis of Character Development in Holocaust Testimonies [13.639727580099484]
本研究は,ナラティブ・タイムラインに沿ってキャラクタ開発を分析するための計算手法を提案する。
ホロコーストの生存者証言の書き起こしをテストケースとみなし、それぞれが一人称の言葉で個人の物語を語る。
我々は、生存者の宗教的軌道に焦点をあて、宗教的信念と実践に対する彼らの配置の進化を考察する。
論文 参考訳(メタデータ) (2024-12-22T15:20:53Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Religion and Spirituality on Social Media in the Aftermath of the Global
Pandemic [59.930429668324294]
私たちは、突然の宗教活動の変化を2つに分析します。
重要な点として,2020年7月から9月にかけての3ヶ月の期間を分析して,この過程の時間的変動を分析した。
論文 参考訳(メタデータ) (2022-12-11T18:41:02Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。