論文の概要: Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.04742v1
- Date: Wed, 04 Feb 2026 16:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.635667
- Title: Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models
- Title(参考訳): 推論時間推論は大規模言語モデルにおける不必要な社会的バイアスを選択的に低減する
- Authors: Molly Apsel, Michael N. Jones,
- Abstract要約: 大規模言語モデル(LLM)における推論可能な推論が暗黙のバイアスに与える影響について検討する。
提案手法により,15のステレオタイプを対象とするモデルクラスに対するIAT型評価における暗黙バイアスが有意に低減されることが判明した。
この研究は、認知科学と心理学の理論が、方法論的および解釈的なフレームワークを提供することで、AI評価研究を補完する方法について強調する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drawing on constructs from psychology, prior work has identified a distinction between explicit and implicit bias in large language models (LLMs). While many LLMs undergo post-training alignment and safety procedures to avoid expressions of explicit social bias, they still exhibit significant implicit biases on indirect tasks resembling the Implicit Association Test (IAT). Recent work has further shown that inference-time reasoning can impair LLM performance on tasks that rely on implicit statistical learning. Motivated by a theoretical link between implicit associations and statistical learning in human cognition, we examine how reasoning-enabled inference affects implicit bias in LLMs. We find that enabling reasoning significantly reduces measured implicit bias on an IAT-style evaluation for some model classes across fifteen stereotype topics. This effect appears specific to social bias domains, as we observe no corresponding reduction for non-social implicit associations. As reasoning is increasingly enabled by default in deployed LLMs, these findings suggest that it can meaningfully alter fairness evaluation outcomes in some systems, while also raising questions about how alignment procedures interact with inference-time reasoning to drive variation in bias reduction across model types. More broadly, this work highlights how theory from cognitive science and psychology can complement AI evaluation research by providing methodological and interpretive frameworks that reveal new insights into model behavior.
- Abstract(参考訳): 心理学の構成要素に基づいて、先行研究は、大きな言語モデル(LLM)における明示的偏見と暗黙的偏見を区別している。
多くのLCMは、明示的な社会的偏見の表現を避けるために、訓練後のアライメントと安全手順を行っているが、インプリシット・アソシエーション・テスト(IAT)に似た間接的なタスクに顕著なバイアスを呈している。
近年の研究では、暗黙的な統計的学習に依存するタスクにおいて、推論時間推論がLLMのパフォーマンスを損なうことが示されている。
人間の認知における暗黙の関連と統計的学習の理論的関連により、推論がLLMの暗黙のバイアスにどのように影響するかを考察する。
提案手法により,15のステレオタイプを対象とするモデルクラスにおいて,IAT型評価における暗黙バイアスが有意に低減されることが判明した。
この効果は社会的バイアス領域に特有なものであり、非社会的暗黙の関連が減少することはない。
これらの結果から,アライメントプロシージャが推論時間推論とどのように相互作用し,モデル型間でバイアス低減のばらつきを引き起こすのか,という疑問が浮かび上がっている。
より広く、この研究は認知科学と心理学の理論が、モデル行動に対する新たな洞察を明らかにする方法論的および解釈的フレームワークを提供することで、AI評価研究を補完する方法を強調している。
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。
ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。
本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文 参考訳(メタデータ) (2025-04-10T14:23:06Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。