論文の概要: When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance
- arxiv url: http://arxiv.org/abs/2605.22975v2
- Date: Thu, 28 May 2026 16:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.537183
- Title: When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance
- Title(参考訳): AIが信仰の問いに逆らうとき:AIを媒介とした信仰指導における永続的対称性
- Authors: Brett Israelsen, Sheryl Carty, Josh Coates, Nancy Fulda, Julie Park, Pete Whiting,
- Abstract要約: 我々は、大言語モデル(LLM)が宗教的変換に関するクエリを対称に扱うかどうかを問う。
モデルが一貫した非対称性を示し、一部の宗教を好んで、他の宗教への転換を軽蔑していることを示す。
パターンはモデルサイズとモデルプロバイダによって異なり、Grok 4.20は最も強力な対称性を示す。
- 参考スコア(独自算出の注目度): 1.163745353081629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We ask whether large language models (LLMs) treat queries about religious conversion symmetrically. The answer is no. When asked for advice on hypothetical faith transitions from religion A->B vs. religion B->A , models exhibited consistent asymmetries, favoring some religions while subtly discouraging conversion to others. On average Catholic, Bahá'í, and Sikh religions were broadly favored (high support for joining, low support for leaving), while Atheists, Agnostics, and Jehovah's Witnesses were primarily disfavored. Patterns varied by model size and model provider, with Grok 4.20 exhibiting the strongest asymmetries. We tested 20 commercial and open-source language models across 182 religion pairings using a human-verified LLM-as-judge framework. Each model was probed via interactions with a simulated user asking for advice on a potential faith conversion. Models tended to use more encouraging language for some faith transitions over others; these patterns were systematically repeatable across multiple trials. All LLMs tested exhibited reproducible asymmetry, though the pattern of preferences differed for each. Overall preferences persist across multiple question phrasings and variations in the religious pairing dataset. Taken together, these results suggest that asymmetry is a robust property of model behavior rather than an artifact of how the models' answers were scored. It is important to consider that any imbalances deployed and reproduced at scale can have real-world implications.
- Abstract(参考訳): 我々は、大言語モデル(LLM)が宗教的変換に関するクエリを対称に扱うかどうかを問う。
答えはノーです。
宗教 A->B vs.宗教 B->A からの仮説的信仰遷移についての助言を求めると、モデルは一貫した対称性を示し、一部の宗教を好んで、他への改宗を軽視した。
平均的なカトリック、バハーイー教、シク教徒の宗教は広く支持され(参加への高い支持、離脱への支持の低さ)、無神論者、アグノスティック派、ジェホバの証人は主に嫌われていた。
パターンはモデルサイズとモデルプロバイダによって異なり、Grok 4.20は最も強力な対称性を示す。
LLM-as-judgeフレームワークを用いて182の宗教ペアリングにまたがる20の商用およびオープンソース言語モデルを検証した。
各モデルは、潜在的な信条変換に関するアドバイスを求めるシミュレーションユーザとのインタラクションを通じて調査された。
これらのパターンは、複数のトライアルで体系的に再現可能であった。
全てのLSMは再現可能な非対称性を示したが、それぞれの好みのパターンは異なっていた。
全体的な嗜好は、宗教的なペアリングデータセットにおける複数の質問のフレーズとバリエーションに持続する。
これらの結果は、非対称性がモデル回答のスコアのアーチファクトではなく、モデル行動の頑健な性質であることを示唆している。
大規模に展開され、再生されるあらゆる不均衡が、現実世界に影響を及ぼす可能性があると考えることが重要である。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.048751803239144]
CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトでも不信なCoTが発生することを示す。
論文 参考訳(メタデータ) (2025-03-11T17:56:30Z) - Are DeepSeek R1 And Other Reasoning Models More Faithful? [2.0429566123690455]
我々は,Qwen-2.5,Gemini-2,DeepSeek-V3-Baseの3つの推論モデルを評価する。
MMLU質問に対する解答に、その解答がどう影響するかをモデルで記述できるかどうかを検証する。
推論モデルは、テストされたすべての非推論モデルよりもはるかに確実にそれらに影響を与えるキューを記述する。
論文 参考訳(メタデータ) (2025-01-14T14:31:45Z) - Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty [47.95943057892318]
ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。
本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z) - Do Language Models Have Beliefs? Methods for Detecting, Updating, and
Visualizing Model Beliefs [76.6325846350907]
Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。
本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
論文 参考訳(メタデータ) (2021-11-26T18:33:59Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。