論文の概要: Multi-Persona Thinking for Bias Mitigation in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15488v1
- Date: Wed, 21 Jan 2026 21:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.426123
- Title: Multi-Persona Thinking for Bias Mitigation in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるバイアス軽減のためのマルチペソナ思考
- Authors: Yuxing Chen, Guoqing Luo, Zijun Wu, Lili Mou,
- Abstract要約: 大規模言語モデル(LLM)は、有害なステレオタイプや不公平な結果に永続的な社会的バイアスを示す。
複数視点からの弁証的推論を利用してバイアスを低減する新しい推論時間フレームワークであるMulti-Persona Thinking (MPT)を提案する。
MPTは、対照的な社会的アイデンティティと中立的な視点を採用するようモデルに誘導し、それらのペルソナを反復してバイアスを露出し、修正する。
- 参考スコア(独自算出の注目度): 21.10313260260077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit significant social biases that can perpetuate harmful stereotypes and unfair outcomes. In this paper, we propose Multi-Persona Thinking (MPT), a novel inference-time framework that leverages dialectical reasoning from multiple perspectives to reduce bias. MPT guides models to adopt contrasting social identities (e.g., male and female) along with a neutral viewpoint, and then engages these personas iteratively to expose and correct biases. Through a dialectical reasoning process, the framework transforms the potential weakness of persona assignment into a strength for bias mitigation. We evaluate MPT on two widely used bias benchmarks across both open-source and closed-source models of varying scales. Our results demonstrate substantial improvements over existing prompting-based strategies: MPT achieves the lowest bias while maintaining core reasoning ability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害なステレオタイプや不公平な結果に永続的な社会的バイアスを示す。
本稿では,複数視点からの弁証的推論を利用してバイアスを低減する新しい推論時間フレームワークであるMulti-Persona Thinking (MPT)を提案する。
MPTは、中立的な視点で対照的な社会的アイデンティティ(例えば、男性、女性)を採用するようモデルに誘導し、バイアスを露出し、修正するためにこれらのペルソナを反復的に関与させる。
弁証的推論プロセスを通じて、この枠組みはペルソナ代入の潜在的な弱さをバイアス緩和の強さに変換する。
様々なスケールのオープンソースモデルとクローズドソースモデルの両方で広く使用されている2つのバイアスベンチマークでMPTを評価した。
その結果,MPTはコア推論能力を維持しつつ,最も低いバイアスを達成できることがわかった。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge [70.89799989428367]
我々は、位置バイアス、冗長性バイアス、チェーンオブ思考バイアス、バンドワゴンバイアスの4つの多様なバイアスタイプを体系的に分析する。
広く採用されているマルチエージェントLLM-as-JudgeフレームワークであるMulti-Agent-DebateとLLM-as-Meta-Judgeでこれらのバイアスを評価する。
論文 参考訳(メタデータ) (2025-05-26T03:56:41Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Cognitive bias in large language models: Cautious optimism meets
anti-Panglossian meliorism [0.0]
大きな言語モデルにおけるバイアスの伝統的な議論は、不公平と密接に結びついたバイアスの概念に焦点を当てている。
最近の研究は、様々な認知バイアスに対して、大きな言語モデルのアウトプットを評価する新たな可能性を高めている。
この議論の哲学的意味は、人間の認知バイアスの合理性や、モデルバイアスの駆動における非表現的データの役割である。
論文 参考訳(メタデータ) (2023-11-18T01:58:23Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。